Краткое содержание статьи:
Robots.txt — текстовый файл, расположенный в корневой папке сайта. В нём хранятся параметры индексирования ресурса, которые считываются роботами поиска. Открывается файл по запросу www.сайт.ru/ robots.txt.
Даже незначительные погрешности в robots способны отразиться на индексации сайта, не исключено даже абсолютное изъятие из поиска. Поэтому нельзя игнорировать такие текстовые файлы, а ещё обязательно изучите подробный чек-лист для проведения аудита интернет ресурса.
Этот файл настраивается для того, чтобы роботы поиска могли адекватно воспринимать сайт. В нем прописывается тип контента и существенные правила запретов и разрешений на определённые страницы ресурса.
Robots.txt запрещает или разрешает доступ к файлам определённого вида:
Как же работает robots.txt? Всё просто: робот заходит на сайт, сначала знакомится с рекомендациями роботс, только потом начинает индексирование.
Робот анализирует документ и следует им указаниям. Именно поэтому нужно разобраться с тем, какие директивы можно и нужно указывать в robots.txt.
С помощью этой команды задаётся имя робота, именно им будут использовать все рекомендации этого файла. В интернете числится более трёхсот роботов (Googlebot-Video, AdsBot-Google, YandexBlogs и так далее). Перечислять каждого будет проблематично.
Для упрощения используется директива User-agent: *, где символ * означает, что рекомендации роботс предназначены для всех существующих роботов поиска.
Disallow — основная команда, на которую активно реагируют поисковики. Именно с её помощью вы разрешаете или запрещаете индекс определённых страниц. Верным написанием считается вариант Disallow:.
Если после знака : вы поставите символ /, то можете закрыть весь сайт от индексации. Именно поэтому с этой директивой нужно работать осторожно и без спешки.
Рассмотрим частые команды, которые используются веб-мастерами для создания файла роботс:
Нельзя забывать и про разрешающую директиву Allow. Она даёт разрешение роботом на индексирование определённых путей в запрещённом файле.
Приведём пример директивы, из-за отсутствия которой робот системы Гугл отправил множество писем владельцам сайтов, его содержание — «Googlebot не может получить доступ к файлам CSS и JS на сайте». Далее, идёт комментарий о том что, если не открыть файлы CSS и js, то можно потерять позиции в поисковой выдаче. Для исправления ошибки используется следующая директива:
Allow: /themplate/*.js
Allow: /themplate/*.css
Disallow: /themplate
Это официальное разрешение роботам на индекс файлов CSS и JS, но при этом есть запрет на индексирование всего в папке с шаблоном.
Разрешение, воспринимаемое лишь роботами Яндекс. Команда прописывается для определения основного домена ресурса из зеркала сайта.
Если вы владеете ресурсом okna.com, но ещё есть и другие с редиректом на основной: okna2.com, okna3.com и так далее. В этом случае роботу нужно подсказать, какой домен главный. Если ситуация не про вас, то команда Host не применяется.
Эта директива тоже работает только для Яндекса. Необходима она для снижения нагрузки на сервер со стороны поисковых роботов. Иногда индексировать страницы могут одновременно сотни поисковиков, поэтому ресурс может начать зависать.
Crawl-delay — это минимальный период меду загрузками страниц вашего ресурса, обычно используется значение две секунды.
Команда нужна для подсказки роботу, где расположилась карта сайта (sitemap.xml). Роботы запоминают этот путь и лояльно относятся к ресурсам, которые указывают его в файле роботс.
Нужно открыть блокнот и один раз разобраться со всеми файлами своего ресурса. Каждая директива прописывается с новой строчки. Вот, например, как выглядит роботс для нашего сайта:
Если ручная настройка кажется сложной, можно использовать генераторы файла robots.txt на следующих сайтах: https://htmlweb.ru или https://pr-cy.ru.
После загрузки файла роботс, нужно его проверить. Для этого используются ресурсы: «Яндекс. Вебмастер» или «Гугл.Вебмастер».
Новички часто могут допустить следующие ошибки, которые способны повлиять на работу всего сайта:
Работа с файлом robots.txt требует внимания и знаний. Не спешите заполнять его бездумно. Если есть трудности, то лучше обратиться к специалистам команды Grand-SEO.