быть выше

Блог компании Grand-SEO

Правильная настройка robots.txt на сайте

Краткое содержание статьи:

Robots.txt — текстовый файл, расположенный в корневой папке сайта. В нём хранятся параметры индексирования ресурса, которые считываются роботами поиска. Открывается файл по запросу www.сайт.ru/ robots.txt.

Даже незначительные погрешности в robots способны отразиться на индексации сайта, не исключено даже абсолютное изъятие из поиска. Поэтому нельзя игнорировать такие текстовые файлы, а ещё обязательно изучите подробный чек-лист для проведения аудита интернет ресурса.

Предназначение robots.txt

Этот файл настраивается для того, чтобы роботы поиска могли адекватно воспринимать сайт. В нем прописывается тип контента и существенные правила запретов и разрешений на определённые страницы ресурса.

Robots.txt запрещает или разрешает доступ к файлам определённого вида:

Текстовые файлы — это html страницы, на которых размещается разнообразная информация. Например, можно закрыть дубли страниц, архивные материалы или профильные страницы.
Графические файлы — это картинки сайта. Отдельные элементы легко закрываются от индекса.
Файлы ресурсов — это скрипты, файлы стилей CSS, js. Но с ними нужно работать осторожно.

Как же работает robots.txt? Всё просто: робот заходит на сайт, сначала знакомится с рекомендациями роботс, только потом начинает индексирование.

Описание директив в robots.txt

Робот анализирует документ и следует им указаниям. Именно поэтому нужно разобраться с тем, какие директивы можно и нужно указывать в robots.txt.

User-agent

С помощью этой команды задаётся имя робота, именно им будут использовать все рекомендации этого файла. В интернете числится более трёхсот роботов (Googlebot-Video, AdsBot-Google, YandexBlogs и так далее). Перечислять каждого будет проблематично.

Для упрощения используется директива User-agent: *, где символ * означает, что рекомендации роботс предназначены для всех существующих роботов поиска.

Disallow и Allow

Disallow — основная команда, на которую активно реагируют поисковики. Именно с её помощью вы разрешаете или запрещаете индекс определённых страниц. Верным написанием считается вариант Disallow:.

Если после знака : вы поставите символ /, то можете закрыть весь сайт от индексации. Именно поэтому с этой директивой нужно работать осторожно и без спешки.

Рассмотрим частые команды, которые используются веб-мастерами для создания файла роботс:

Disallow: /papka/ — запрет на индексирование определённой папки ресурса;
Disallow: /images/img.jpg — закрытие от индексации определённого файла;
Disallow: /*.png$ — запрет на определённый тип файла на вашем сайте.

Нельзя забывать и про разрешающую директиву Allow. Она даёт разрешение роботом на индексирование определённых путей в запрещённом файле.

Приведём пример директивы, из-за отсутствия которой робот системы Гугл отправил множество писем владельцам сайтов, его содержание — «Googlebot не может получить доступ к файлам CSS и JS на сайте». Далее, идёт комментарий о том что, если не открыть файлы CSS и js, то можно потерять позиции в поисковой выдаче. Для исправления ошибки используется следующая директива:

Allow: /themplate/*.js

Allow: /themplate/*.css

Disallow: /themplate

Это официальное разрешение роботам на индекс файлов CSS и JS, но при этом есть запрет на индексирование всего в папке с шаблоном.

Host

Разрешение, воспринимаемое лишь роботами Яндекс. Команда прописывается для определения основного домена ресурса из зеркала сайта.

Если вы владеете ресурсом okna.com, но ещё есть и другие с редиректом на основной: okna2.com, okna3.com и так далее. В этом случае роботу нужно подсказать, какой домен главный. Если ситуация не про вас, то команда Host не применяется.

Crawl-delay

Эта директива тоже работает только для Яндекса. Необходима она для снижения нагрузки на сервер со стороны поисковых роботов. Иногда индексировать страницы могут одновременно сотни поисковиков, поэтому ресурс может начать зависать.

Crawl-delay — это минимальный период меду загрузками страниц вашего ресурса, обычно используется значение две секунды.

Sitemap

Команда нужна для подсказки роботу, где расположилась карта сайта (sitemap.xml). Роботы запоминают этот путь и лояльно относятся к ресурсам, которые указывают его в файле роботс.

Как создавать файл robots.txt

Нужно открыть блокнот и один раз разобраться со всеми файлами своего ресурса. Каждая директива прописывается с новой строчки. Вот, например, как выглядит роботс для нашего сайта:

Если ручная настройка кажется сложной, можно использовать генераторы файла robots.txt на следующих сайтах: https://htmlweb.ru или https://pr-cy.ru.

После загрузки файла роботс, нужно его проверить. Для этого используются ресурсы: «Яндекс. Вебмастер» или «Гугл.Вебмастер».

Частые ошибки в файле роботс

Новички часто могут допустить следующие ошибки, которые способны повлиять на работу всего сайта:

Строка осталась пустой – этого нельзя допускать в директиве user-agent.
Host — команда используется в единственном экземпляре. Если робот обнаружил две строки с этой директивой, то будет работать только с первой. Ещё в этой директиве путь к домену прописывается без / и http.
В Яндексе существуют роботы, невоспринимающие правила, прописанные в роботс. Индексирование им запрещают с помощью именных команд, которые создаются отдельно. Вот эти роботы: YandexAccessibilityBot, YaDirectFetcher, YandexMobileBot, YandexCalendar, YandexDirectDyn и YandexDirect.
Имя файла прописывается только в виде robots.txt, никаких заглавных букв.

Работа с файлом robots.txt требует внимания и знаний. Не спешите заполнять его бездумно. Если есть трудности, то лучше обратиться к специалистам команды Grand-SEO.

Рассказать друзьям: