Кто может сделать SEO лучше,
чем тот кто сам в ТОП3? Звоните!
Кто может сделать SEO лучше,
чем тот кто сам в ТОП3? Звоните!
8 800 350 99 87 пн – пт 10:00 – 19:00 (Мск)

Анализ, использование и директивы файла robots.txt

Robots.txt (роботс) – это текстовый файл, в котором указываются правила индексирования сайта для роботов поисковых систем. Яндекс и Google регулярно загружают с сервера данный документ при очередном анализе сайта. Благодаря использования в нём специальных директив вы можете разрешить или наоборот запретить поисковикам доступ к определённой информации на ресурсе.

Создание и настройка документа robots.txt

Создать данный файл можно в обычном текстовом редакторе. Для описания правил индексации используются специальные директивы (записи в виде строк). Именно по ним робот понимает какой контент можно индексировать, а какой нельзя.

Сам документ размещается в корневой директории ресурса. Обратите внимание, что его название должно указываться в нижнем регистре (все буквы маленькие).

Мы категорически не рекомендуем использовать для создания данного документа автоматические генераторы, так как это может очень негативно отразиться на индексации ресурса и, как следствие, на качестве и скорости его продвижения в интернете.

Инструкция по использованию директив в файле robots.txt

Директива User-agent

Указывает на робота, для которого действуют правила индексирования. Например:

  • User-agent: * (правила распространяются на всех поисковых роботов);
  • User-agent: YandexBot (правила распространяются только на основного робота Яндекса).

Список поисковых роботов можно подсмотреть в руководстве Яндекс и Google.

Запрещающающая директива Disallow

Использование данной директивы в файле robots.txt запрещает индексацию каталогов или отдельных страниц ресурса. Например:

  • Disallow: /search/ (закрывает индексацию ссылок из встроенного поиска);
  • Disallow: /catalog (закрывает индексацию всех ссылок, которые начинаются с данной записи).

Скрывать от индексации необходимо техническую информацию и страницы, содержание которых не предназначено для поисковых роботов (например, страницы поиска, админку, корзину и т.д.).

Разрешающая директива Allow

Имеет полностью противоположное действие директиве Disallow. Например:

  • Allow: /catalog (разрешает индексирование всех страниц, которые начинаются со ссылки https://www.example.ru/catalog/…);
  • Allow: / (разрешена индексация всех страниц сайта).

Директива Sitemap

Указывает поисковику месторасположение файла Sitemap (карты сайта). Запись будет иметь следующий вид: Sitemap: https://www.example.ru/sitemap.xml/.

В robots.txt допустимо использование некоторых таких директив. Поэтому, если файлов Sitemap на сайте несколько, необходимо указать путь к каждому из них.

Директива Clean-param

Данная запись указывает роботу о наличии на страница параметров (например, UTM-метки), которые не нужно учитывать при обращении к файлу robots.txt.

Например, одна и та же страница может иметь несколько ссылок:

  • http://www.example.ru/catalog?ref=page_1
  • http://www.example.ru/catalog?ref=page_2
  • http://www.example.ru/catalog?ref=page_3

Чтобы при анализе ресурса робот не посчитал это дублированием контента, в файле robots.txt необходимо использовать запись: Clean-param: ref /catalog/.

Директива Crawl-delay

Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. Это актуально для слабых серверов. Например, запись “Crawl-delay: 3.5” задает тайм-аут в три с половиной секунды.

Другие варианты директив

Обратите внимание, что записи, с помощью которых настраивается процесс индексации ресурса поисковиками, могут быть указаны разными способами. Например, запись “disallow: /” аналогична записи “disallow: ”. Более подробные примеры использования директив вы можете найти в руководстве поисковых систем.

Анализ файла robots.txt

Чтобы узнать правильно ли составлен данный документ, вы можете провести его проверку в панели вебмастера Яндекс по ссылке: https://webmaster.yandex.ru/tools/robotstxt/. В поле “Результаты анализа robots.txt” будут указаны директивы, которые видит робот при сканировании вашего сайта.

Здесь же вы можете увидеть наличие разрешения или запрета на индексирование определенных страниц. Для этого укажите список URL в специальном поле.

Аналогичный инструмент есть в Google Search Console: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru.

Другие
материалы
Это адрес сайта или определенная зона, которой присвоено уникальное имя. Домены ...
Это сервис, который представляет владельцам сайтов их веб-ресурс с точки зрения ...
Q&A-сессии — один из самых эффективных методов общения наставника со своей а...
Мета-теги — это элементы html-кода страницы, из которых поисковая система ...
Google Disavow Links Tool — инструмент вебмастеров, который помогает отклонить п...
Не всегда первой позиции в поиске бывает достаточно. Иногда сайты, которые наход...
RSS-канал — это файл, который используется для создания и обновления турбо...
Когда пользователь открывает новую страницу в Chrome, то кроме строки поиска он ...
Один из видов поисковых запросов. Он не является очень популярным среди людей, п...
От англ. subdomain— домен, являющийся частью домена более высокого уровня....
Закажите SEO раскрутку сайта
Оставьте свой номер телефона и мы свяжемся с Вами в рабочее время. Наша команда проконсультирует, поможет, проснит и ответит на любые вопросы

    Либо напишите нам на почту [email protected] или просто позвоните по номеру