Robots.txt: для чего нужен файл и как он влияет на SEO-оптимизацию

Из-за некорректной настройки файла robots, страницы или весь сайт могут исчезнуть из поисковой выдачи. Поэтому важно правильно прописать директивы, связать их логику. В статье анализируем основные директивы robots, показываем, как их использовать для разных сценариев.

Seopapa: сервис для продвижения сайтов в ТОП-1 Яндекс

Начать продвижение

Что такое файл robots

Robots.txt — документ с правилами для систем поиска, помогает контролировать индексацию контента. Он всегда находится в корневой папке. Для сайта https://moymagazin.ru/ путь к папке будет выглядеть так → https://moymagazin.ru/robots.txt.

Принцип действия файла. Когда робот Google или любой другой поисковой системы попадает на сайт, изначально он заходит в корневой каталог и в нем открывает robots.txt. Считывая директивы, то есть правила, робот следует им. Например, он игнорирует страницы, которые запрещено сканировать.

*Процесс работы поисковых ботов. Файл поможет контролировать их доступ к веб-ресурсу*

Файл robots txt может сообщить: такой-то раздел или такую-то статью сканировать не нужно. Хотя это не значит, что указанный раздел не появится в выдаче. Это текстовый файл, который не влияет на уже проиндексированные страницы.

Чтобы страница точно не появлялась в поиске, в код вписывают специальную команду. Такая информация есть в официальных справочных материалах систем поиска.

*Детали про то, как создать файл robots txt. Чтобы точно запретить сканирование, есть мета-тег noindex*

Между файлом robots.txt и тегом noindex есть разница. Файл позволяет запретить индексацию, но страницы все же могут появиться в выдаче. Допустим, если на них ведут внешние ссылки, страницы окажутся в выдаче поисковика. Таким образом, чтобы полностью изъять их из поиска, в код добавляют тег noindex. Он идеален для точечного скрытия страниц.

Для чего нужен файл robots.txt

Файл можно вообще не создавать, он просто помогает понять логику сканирования сайта. Правильно настроенный файл robots дает возможность:

скрывать некоторые служебные страницы вроде корзины;
не допускать дополнительную перегрузку сервера: благодаря файлу robots txt поисковые боты считывают страницы выборочно, а не все подряд;
управлять доступами к конфиденциальной информации;
сообщать путь к Sitemap — файлу, содержащему ссылки на все страницы сайта.

Последний фактор приводит к тому, что поисковый бот быстрее проводит обработку сайта, а компания не теряет время и не ждет, когда страницы попадут в поиск.

Как файл связан с SEO-оптимизацией

Без инструкций поисковые боты могут индексировать не те страницы, которые нужны в компании. Представим, что у интернет-магазина есть пять страниц с одинаковым контентом: А, B, C, D, E. Робот их находит, считывает контент и видит совпадения, поэтому воспринимает страницы как дубли. Он индексирует только страницу А, именно она отображается в поиске.

Но компании важно, чтобы пользователи видели в поиске страницу B — именно она настроена под SEO в Google. В этом случае нужен файл robots. В нем указывают, что страницы А, C, D, E сканировать не нужно, а страницу B, наоборот. То есть вы заранее можете выбрать, что именно индексировать на сайте, а не опираться на выбор поисковых ботов.

В нашем блоге даже есть гайд по SEO, в нем описаны все методы продвижения сайта в Яндекс и Google для роста трафика.

Неправильно настроенный файл может ухудшить процесс оптимизации сайта: важные страницы исчезнут из поиска. Это проблема — так можно потерять позиции веб-ресурса, а восстановить их будет сложно. Чтобы избежать блокировки, важно внимательно следить за содержимым файла.
Проще всего проверить файл не вручную, особенно если нет знаний, а используя специальный инструмент Вебмастера. С ним работать очень просто: вводим url-адрес или содержимое файла — получаем информацию, обнаружены ли ошибки. Аналогичный тест можно выполнить в Google Search Console.

*Пример анализа ключевых ошибок, для которого используется Вебмастер*

Вебмастер анализирует документ, изучая команды внутри него. Эти команды называют директивами, они помогают ботам понять инструкции.

Основные директивы robots

Бот обходит страницы ресурса, следуя прописанным инструкциям. Именно поэтому файл содержит директивы. Это правила, которые указывают, как роботу взаимодействовать с содержимым ресурса. Подробнее о них расскажем ниже.

Обязательная для всех — User-agent

В начале файла всегда обозначена именно эта директива, так как ее функция — дать понять, для какого бота описаны правила. Директива User-agent прописывается всегда, остальные добавляют по необходимости.

Иногда правила настраивают отдельно для нескольких поисковых ботов. Для этого перед каждым списком команд прописывают User-agent.

*Пример того, что такое директивы: они показывают, как взаимодействовать с сайтом*

Disallow

Директива Disallow ограничивает сканирование. Несколько примеров:

Disallow: /blog/kak-sostavit-content-plan/g/ — запрет индексации статьи про контент-план.
Disallow: /modules/ — Disallow запрещает сканировать папки с модулями.
Disallow: /search — запрет сканирования страниц, которые начинаются с «/search».
Disallow: /catalog — Disallow не разрешает сканировать страницы, начинающиеся с «/catalog».
Disallow: / — запрет сканирования всего веб-ресурса.

Если правило Disallow указано верно, страница все равно может попасть в топ-выдачи. Вот пример: хотя сканирование статьи из блога ограничено, она все равно попала в первые строчки выдачи Яндекса.

Allow

Директива Allow противоположна предыдущей. Она делает веб-страницы доступными для ботов. После директивы также нужно поставить / и указать адрес страницы или название раздела.

Если нужно задать команду для всего сайта, используют символ «*». Допустим, необходимо разрешить сканировать все картинки. Тогда добавляем «Allow: *.jpg» — Allow разрешает индексировать все файлы в формате .jpg, то есть изображения.

Директивы Allow и Disallow применяют вместе, чтобы выстраивать сложные сценарии индексирования сайта. Allow помогает указать исключения для Disallow.

К примеру, вы хотите, чтобы сайт не индексировался, но статьи из блога попадали в выдачу поисковиков. Тогда файл будет выглядеть примерно так:

User-agent: * (все поисковые роботы)
Disallow: / (не сканируют сайт)
Allow: /blog (кроме единственного раздела — блога на сайте)

Если директивы дают противоположные указания, поисковый робот отдает приоритет правилу Allow, а не Disallow.

Seopapa: сервис для продвижения сайтов с помощью поведенческих факторов

Продвигаем сайты в топ-1 выдачи Яндекс с помощью поведенческих факторов и уникальных технологий.

Попробовать бесплатно

Sitemap

Директива Sitemap в robots применяется, чтобы привести роботов к карте сайта. Sitemap указывает, где лежит файл sitemap.xml, чтобы боты могли понять структуру сайта и просканировать все разрешенные веб-страницы.

Если файлов несколько, их следует написать по очереди:

User-agent: *
Disallow: /catalog
Sitemap: http//exampe.com/sitemap-products1.xml.
Sitemap: http//exampe.com/sitemap-products2.xml.

Часто другие директивы прописывают под каждого робота. Если файл с картой для них одинаковый, Sitemap указывают в самом конце документа через пустую строку. Так роботы поймут, что карта сайта не привязана к User-agent.

Прежде чем добавлять инструкции в файл robots, нужно создать файл Sitemap и сделать его открытым для систем поиска — загрузить на веб-ресурс

Clean-param

Clean-param указывает, что есть веб-страницы с get-параметрами и их не нужно сканировать. Используя правило, робот «склеит» похожие адреса в один. Это полезно, так как бот не будет считывать страницы несколько раз. Данная директива предназначена только для роботов Яндекса.

Get-параметры — данные, которые указаны в url после вопросительного знака. Например, вот так они выглядят в адресе сайта — http://example.ru/path/to/resource?param1=value1&param2=value2&param3=value3

Правило указывается так:

Clean-param: параметр1[&параметр2...&параметрN] [путь], где

Допустим, на сайте компании есть несколько версий страниц с разными адресами, но с одинаковым контентом:

http://moymagazin.com/objects/list.php?get=10&r_id=333
http://moymagazin.com/objects/list.php?get=11&r_id=333
http://moymagazin.com/objects/list.php?get=12&r_id=333

В компании используют такие дубляжи с get-параметрами, чтобы анализировать каналы привлечения клиентов. Это удобно для оценки маркетинговых кампаний и рекламы, но из-за дублей может возникать чрезмерная нагрузка на сервер.

Поэтому файл robots txt должен сообщать, как именно поступать с похожими ссылками — «склеить» их в одну:

Clean-param: get /objects/list.php

Благодаря этому робот поймет, что все ссылки соответствуют одной:

http://moymagazin.com/objects/list.php?r_id=333

Как настроить файл

Вариант 1. Прописать правила самостоятельно

Создать файл robots и вписать в него директивы можно как угодно. Самый простой вариант — напечатать правила в Microsoft Word.

Дальше необходимо пошагово вписать директивы:

В начале документа сделайте главную запись — обозначьте User-agent.
Составьте список Disallow и Allow, чтобы ограничить или разрешить сканирование.
Пропишите путь к файлу, содержащему ссылки на все страницы сайта. Например, так — Sitemap: http//mymagazin.com/sitemap.xml.
Если есть адреса с get-параметрами, укажите правило Clean-param.
В документе можно оставить комментарии. Их добавляют через символ «#», поисковые боты такой запрос не считывают. Такое решение поможет сделать пометки для удобства.

Можно указать правила для всех ботов или описать их поочередно для Яндекс, Google. Или сначала прописать уникальные команды, например, Googlebot, затем для Yandex, а в конце описать одинаковые правила для всех.

Разберем несколько примеров. Такой файл означает: нельзя сканировать технические ссылки, то есть корзину, поиск, панель администратора:

Это был самый простой вариант директив. Бывает, для Яндекс и Google они отличаются. Так файл robots txt помогает каждому роботу увидеть команды, составленные для него:

Заполненный файл robots txt необходимо назвать «robots». При сохранении выбирают расширение .txt и переносят файл в корневой каталог. Это можно сделать в панели управления хостингом. Особенности загрузки зависят от конкретного проекта и выбранного инструмента:

ispmanager. Чтобы отправить файл robots, выберите вкладку «Сайты». Кликните по домену и нажмите «Файлы сайта». Теперь осталось выгрузить файл.
cPanel. В разделе «Домены» откройте каталог, выберите нужный веб-ресурс, нажмите на кнопку «Загрузить». Разместите файл в главной папке.
Plesk. Откройте вкладку «Сайты и домены», кликните по кнопке «Развернуть» рядом с нужным сайтом. Откройте «Менеджер файлов» и выгрузите файл.

Robots txt располагается в главной папке сайта, не забудьте об этом.

Вариант 2. Использовать онлайн-генераторы

Создать правила в онлайн-сервисе намного проще. Здесь достаточно указать домен и вписать url-адреса страниц рядом с нужной командой. Обычно можно указать путь к файлу sitemap.xml. Скорее всего, не получится создать Clean-param. В таких генераторах это правило встречается редко.

Когда все данные ввели, приложение генерирует текст. Его можно скопировать в документ или сразу скачать в формате .txt.

Использование генератора позволяет быстрее получить результат, так как скорость генерации данных у сервисов выше, чем у человека

Вариант 3. Скачать шаблон

В интернете есть файлы для разных движков сайтов, с разными сценариями запрета и разрешения индексации страниц. Но шаблоны, как и сгенерированные директивы в сервисах, нужно проверять на ошибки. Также у каждого сайта своя структура, поэтому найти на 100% подходящий вариант может быть сложно. Скорее всего, потребуется редактировать файл robots, а это требует много внимания.

Шаблоны для разных сайтов →

Прежде чем загружать robots.txt, проверяйте файл. Для проверки есть онлайн-сервисы и встроенные инструменты систем поиска.

Основные правила настройки файла

Есть несколько правил, которые нужно помнить:

Файл всегда начинают с User-agent.
Каждая директива — это отдельная строчка.
После правила указывают один из двух символов: «/» или «*».
Одна директива относится только к одному параметру. Нельзя прописать для Disallow в одной строке сразу несколько разделов сайта. Это важно.
Директива Clean-param должна быть длинной не больше 500 знаков, иначе ее разбивают на несколько частей. Для остальных директив ограничение по длине — 1024 символа.
Пробелы в файле не учитываются. Нет разницы между Allow: /blog/kak-sostavit-content-plan/g/ и Allow: / blog / kak-sostavit-content-plan / g /.
В конце строки не используют закрывающие знаки, например, точки.
Если после одного блока с User-agent нужно обозначить следующий, между ними оставляют пустую строку. Это обязательное правило.

Ошибки при настройке файла

В файле следует корректно прописывать url-адреса или путь, чтобы бот понимал, что именно разрешено или запрещено сканировать. Допустим, нужно исключить папку plugins на сайте WordPress. Тогда необходимо указать полный адрес: не только эту папку, а еще и ту, в которой находится папка plugins — wp-content.

❌Disallow: /plugins — запрет сканирования не сработает, адрес указан неправильно.
✔️Disallow: /wp-content/plugins — адрес указан правильно, робот выполнит команду.

Другие ошибки, которые допускают чаще всего:

Называют файл с прописной буквы. Файл должен называться «robots».
Указывают любые команды постранично. Страниц на сайте может быть много, поэтому лучше сразу указать раздел и исключения через Allow. Есть лимиты — нельзя добавлять больше 2048 правил. Директивы сверх этого количества робот проигнорирует. Убедитесь, что файл не содержит слишком много правил.
Указывают Sitemap без «http». Это будет большой ошибкой, так как бот не разберется, где лежит файл.
Не актуализируют robots. Иногда нужно обновить файл robots. Например, если добавили или перенесли раздел сайта. Если контент обновляется регулярно или появляются новые товары, нужно настроить автоматическое изменение файла.

При создании команд важно следить за регистром. В написании директив можно использовать любой, робот его не учитывает. Но в url-адресах или имени бота регистр учитывается, поэтому необходимо правильно написать прописные и строчные буквы.

Требования к файлу

У каждой поисковой системы свои требования к размеру файла и серверу, на котором он размещен. Поэтому с ними нужно ознакомиться перед загрузкой файла: изучить правила Google и вот такие требования Яндекса.

Итоги

Специальный файл robots.txt — протокол с правилами для систем поиска, помогает контролировать индексацию контента. Находится файл в корневой папке веб-ресурса.

Когда поисковый бот попадает на сайт, изначально он заходит в корневую директорию и в ней открывает robots.txt. Считывая директивы, то есть правила, робот следует им. Например, он игнорирует страницы, которые запрещено сканировать. Файл позволяет скрывать служебные страницы, к примеру, корзину.

Общие директивы, которые применяют при создании файла:

User-agent — директива, определяющая, для какого бота предназначены прописанные дальше команды.
Disallow — директива, запрещающая изучение и ранжирование указанных веб-страниц.
Allow — является разрешением сканирования указанных страниц.
Sitemap — директива, которая нужна, чтобы обозначить путь к карте сайта. Благодаря этой команде роботы откроют карту сайта и просканируют все разрешенные страницы. Но сначала необходимо создать файлы Sitemap с помощью плагина для CMS или онлайн-сервисов.
Clean-param указывает, что есть страницы с get-параметрами и их не нужно сканировать. Используя правило, робот «склеит» похожие адреса в один, он не будет сканировать страницы несколько раз.
Директива Host, как и Crawl-delay, уже не актуальна, ее не используют.

Файл robots.txt можно составить самостоятельно в Word, сгенерировать в онлайн-сервисе или использовать шаблон. Прежде чем загрузить его, необходимо проверить файл в Вебмастере или другом сервисе, чтобы не было крупных проблем.

Используйте файл, чтобы сделать рекомендацию, как работать с содержимым ресурса. Файл не сможет гарантировать запрет на индексацию указанных страниц. Чтобы точно закрыть их для индекса, подходит применение специальной команды — noindex.