какие файлы запретить в robots txt

Robots.txt и SEO: Всё что вам нужно знать

Статистика статьи

Показывает, сколько различных веб-сайтов ссылаются на этот контент. Как правило, чем больше сайтов ссылаются на вас, тем выше вы ранжируетесь в Google.

Показывает ежемесячный рассчетный поисковый трафик на эту статью по данным Ahrefs. Фактический поисковый трафик (по данным Google Analytics) обычно в 3–5 раз больше.

Количество ретвитов этой статьи в Twitter.

Поделиться этой статьей

Неправильная конфигурация файла robots.txt — очень распространённое явление даже сред/и опытных SEO специалистов.

В этом руководстве вы узнаете:

Что такое файл robots.txt?

Файл robots.txt сообщает поисковым системам о том, куда им можно и нельзя заходить на сайте.

В первую очередь, в нём перечисляется весь контент, который вы хотите скрыть от поисковых систем вроде Google. Некоторым поисковым системам (не Google) вы также можете указать как они должны сканировать доступный контент.

Большинство поисковых систем послушны. Они обычно не вламываются на сайт. При этом, некоторые не стесняются и обходят условные замки.

Google к ним не относится. Он соблюдает инструкции в файле robots.txt.

Просто имейте в виду, что некоторые поисковики не обращают на него никакого внимания.

Как выглядит файл robots.txt?

Вот базовый формат файла robots.txt:

Если вы никогда раньше не видели этих файлов, они могут вас напугать. Но синтаксис довольно прост. Вкратце, вы указываете правила для бота, указывая директивы для его user-agent.

Давайте изучим оба компонента подробнее.

User-agent

У каждой поисковой системы есть свой особый user-agent. В файле robots.txt вы можете указать инструкции для каждого из них. Есть сотни user-agent. Вот несколько полезных для SEO:

Чтобы обозначить инструкции для всех user-agent, используйте маску со звёздочкой (*).

Например, вы хотите запретить сканировать сайт всем роботам кроме Googlebot. Вот как это сделать:

В вашем файле robots.txt может быть много директив для всех user-agent, которые захотите. При этом, когда вы объявляете нового user-agent, он воспринимает только свои инструкции. Другими словами, если вы добавляете директивы для нескольких user-agent, то директивы для первого не будут работать для второго и последующих user-agent.

Исключением из правила будет случай, когда вы объявляете один и тот же user-agent более одного раза. В таком случае, робот будет следовать всем прописанным для него директивам инструкциям.

Краулеры следуют только тем правилам, которые прописаны под точным названием user-agent. Поэтому файл robots.txt выше блокирует всех роботов кроме Googlebot (и других роботов Google). Googlebot игнорирует более менее конкретное объявление user-agent.

Директивы

Директивы — это правила, которые должен соблюдать user-agent.

Поддерживаемые директивы

Вот список директив и примеры их использования, которые поддерживает Google.

Disallow

Используйте эту директиву, чтобы закрыть поисковым системам доступ к файлам и страницам по определённому пути. Например, если вы хотите закрыть доступ к блогу и всем его страницам для всех поисковых систем, ваш файл robots.txt будет выглядеть примерно так:

Allow

Эту директиву используют для того, чтобы позволить поисковым системам сканировать подпапку или страницу. Даже если в другом месте вы закрыли к ней доступ. Например, если вы хотите запретить поисковым системам сканировать каждый пост в блоге кроме одного, файл robots.txt будет выглядеть как-то так:

И Google, и Bing поддерживают эту директиву.

Если вы будете неосторожны, директивы allow и disallow могут легко конфликтовать друг с другом. В примере ниже мы запрещаем доступ к

В данном случае URL /blog/post-title/ одновременно разрешён и запрещён. Так какая же директива сработает?

Для Google и Bing главной будет та директива, у которой больше символов. В данном случае победит директива disallow.

Disallow: /blog/ (6 символов)

Allow: /blog (5 символов)

Если директивы allow и disallow одинаковой длины, то побеждает менее ограничивающая директива. В данном случае, это allow.

Важно то, что это касается только Google и Bing. Другие поисковые системы слушают первую подходящую директиву. В этом случае это disallow.

Sitemap

Используйте эту директиву, чтобы указать поисковым системам адрес вашей карты сайта. Если вы не знаете, что такое карта сайта, то они обычно перечисляют страницы, которые поисковые системы должны сканировать и индексировать.

Вот пример файла robots.txt c директивой Sitemap.

Насколько важно указывать карту (карты) сайта в файле robots.txt? Если вы её уже указали в поисковой консоли, то для Google этого достаточно. Однако другие поисковые системы, такие как Bing, смотрят расположение карты сайта в файле. Поэтому не стоит забывать об этой директиве.

Обратите внимание, что вам не нужно повторять директиву Sitemap для разных user-agent. Она работает для всех. Поэтому карту сайта лучше указывать в начале, или в конце файла robots.txt. Например:

Google поддерживает директиву sitemap, как и Ask, Bing и Yahoo.

Неподдерживаемые директивы

Вот несколько директив, которые Google больше не поддерживает. Некоторые из них он никогда не поддерживал.

Crawl-delay

Раньше эту директиву можно было использовать для указания задержки сканирования в секундах. Например, если вы хотели, чтоб Googlebot ждал 5 секунд после каждого сканирования, вы бы установили задержку в 5 секунд:

Google больше не поддерживает эту директиву, хотя Bing и Yandex поддерживают.

Тем не менее, будьте осторожны, указывая директиву. Особенно на большом сайте. Если вы выставите задержку в 5 секунд, вы ограничиваете роботов к 17280 URL в день. Если на вашем сайте миллионы страниц, то это не очень полезно. Но если у вас небольшой сайт, то сэкономите немного трафика.

Noindex

Эту директиву Google никогда официально не поддерживал. Однако до недавнего времени считалось, что у Google есть некоторый «код, который обрабатывает неподдерживаемые и неопубликованные правила (такие как noindex)». Поэтому, если вы хотите запретить Google индексировать все посты в вашем блоге, вы можете использовать следующую директиву:

Однако 1 сентября 2019 года Google дал понять, что эта директива не поддерживается. Если вы хотите исключить страницу или файл из поисковых систем, используйте вместо него тег meta robots или HTTP-заголовок x‑robots.

Nofollow

Это еще одна директива, которую Google никогда официально не поддерживал, и она использовалась для того, чтобы запретить поисковым системам переходить по ссылкам на страницах и файлах по определенному пути. Например, если вы хотели запретить Google переходить по всем ссылкам в вашем блоге, вы могли использовать следующую директиву:

Google объявил, что с 1 сентября 2019 года эта директива официально не поддерживается. Если сейчас вы хотите запретить переход по всем ссылкам на странице, следует использовать мета тег robots или заголовок x‑robots. Если вы хотите запретить Google переходить по определенным ссылкам на странице, используйте атрибут ссылки rel = “nofollow”.

Нужен ли вам файл robots.txt?

Многим сайтам, особенно маленьким, не обязательно иметь файл robots.txt.

Тем не менее, нет причины полностью от него отказываться. Он дает вам больше контроля над тем, куда поисковые системы могут и не могут заходить, и это может помочь с такими вещами, как:

Обратите внимание, что хотя Google обычно не индексирует веб-страницы, скрытые в файле robots.txt, это не гарантия того, что эти страницы не появятся в результатах поиска.

Как говорят в Google, если на контент ссылаются с других страниц в интернете, он может появиться в результатах поиска Google.

Как найти файл robots.txt?

Если у вас на сайте уже есть файл robots.txt, он будет доступен по адресу domain.com/robots.txt. Перейдите по URL в браузере. Если вы видите что-то подобное, то файл robots.txt у вас есть:

Как создать файл robots.txt

Продолжайте составлять директивы, пока не будете довольны тем, что имеете. Сохраните ваш файл как «robots.txt».

Продолжайте составлять директивы пока не напишите всё что нужно. Сохраните файл как “robots.txt.”

Также можно использовать генератор robots.txt вроде этого.

Преимущество такого инструмента в том, что он сводит к минимуму синтаксические ошибки. Это хорошо, потому что одна ошибка может привести к плачевным последствиям для SEO вашего сайта. Поэтому стоит быть осторожным.

Недостаток в том, что их сложнее настраивать.

Куда поместить файл robots.txt

Поместите файл robots.txt в корневой каталог поддомена, к которому он применяется. Например, чтобы контролировать сканирование на domain.com, файл robots.txt должен быть доступен по адресу domain.com/robots.txt.

Если вы хотите контролировать сканирование на поддомене вроде blog.domain.com, тогда файл robots.txt должен быть доступен по адресу blog.domain.com/robots.txt.

Лучшие практики robots.txt

Чтобы избежать распространённых ошибок, следуйте этим правилам.

Читайте также:  Что такое модификация транспортного средства

Каждую директиву прописывайте с новой строки

Каждая директива должна быть прописана на новой строке. Иначе поисквые системы её не поймут.

Плохо:

Хорошо:

Используйте маски для упрощения

Маски (*) можно использовать не только для определения всех user-agent, но и для шаблонов URL адресов при объявлении директив. Например, если вы хотите запретить поисковым системам доступ к URL-адресам категорий товаров с параметрами на вашем сайте, вы можете перечислить их следующим образом:

Но это не очень эффективно. Было бы использовать маску, как здесь:

В этом примере поисковым системам запрещается сканировать все URL-адреса в подпапке /product/ со знаком вопроса. Другими словами, любые URL с параметрами категории товаров.

Используйте знак “$” для определения окончания URL адреса

Используйте каждый user-agent не больше одного раза

Если вы указали один и тот же user-agent несколько раз, Google поймёт. Он просто объединит все правила из разных мест в одно и будет следовать им всем. Например, если в вашем файле robots.txt были следующие user-agent и директивы…

… Googlebot не будет сканировать ни одну из подпапок.

Тем не менее, не стоит прописывать user-agent больше одного раза, потому что так вы будете меньше путаться. Другими словами, если всё будет упорядочено и просто, то вы не будете совершать критических ошибок.

Будьте конкретными, чтобы избежать случайных ошибок

Если дать нечёткие инструкции при составлении директив, вы можете легко совершить ошибку. Это может иметь катастрофические последствия для вашего SEO. Предположим, что у вас есть мультиязычный сайт и вы работаете над немецкой версией, которая будет доступна в подпапке /de/.

Поскольку она ещё не полностью готова, вы хотите закрыть поисковым системам доступ к ней.

Файл robots.txt, который вы видите ниже запрещает поисковым системам заходить в эту подпапку и сканировать что-либо в ней:

В данном случае решение простое: добавить в конце косую черту.

Используйте комментарии, чтобы люди могли понимать ваш robots.txt

Комментарии помогают разработчикам понимать ваш файл robots.txt и, возможно, даже вам самим в будущем. Чтобы добавить комментарий, начните строку со знака хеша (#).

Роботы будут игнорировать все строки, которые начинаются с этого символа.

Для каждого поддомена используйте отдельный файл robots.txt

Robots.txt контролирует сканирование только на поддомене, где он размещен. Если вы хотите контролировать сканирование на другом поддомене, вам понадобится отдельный файл robots.txt.

Например, если ваш основной сайт находится на domain.com, а ваш блог — на blog.domain.com, вам понадобятся два файла robots.txt. Один должен идти в корневой каталог основного домена, а другой — в корневой каталог блога.

Примеры файлов robots.txt

Ниже приведены несколько примеров файлов robots.txt. Я их привожу только для примера, но если какой-то вам подходит, скопируйте его в текстовый документ, сохраните как «robots.txt» и загрузите в соответствующий каталог.

Полный доступ для всех роботов

Нет доступа всем роботам

Заблокировать доступ к одной подпапке для всех роботов

Заблокировать доступ к одной подпапке для всех роботов (оставить доступным один файл)

Заблокировать один файл для всех ботов

Заблокировать один тип файлов (PDF) для всех ботов

Запретить сканирование URL адресов с параметрами только для Googlebot

Как найти ошибки в файле robots.txt

В файле robots.txt очень легко допустить ошибку, поэтому стоит за этим следить особенно внимательно.

Для этого следует регулярно проверять отчёт “Покрытие” в поисковой консоли. Ниже мы привели несколько примеров ошибок, которые вы можете увидеть, рассказали что они значат и как их исправить.

Вставьте URL-адрес в инструмент Google для проверки URL-адресов в консоли поиска. Если он заблокирован файлом robots.txt, вы должны увидеть что-то вроде этого:

Доступ к отправленному URL заблокирован в файле robots.txt

Это означает, что по крайней мере один из URL-адресов в карте сайта заблокирован в файле robots.txt.

Если вы правильно создали карту сайта и исключили каноникализированные, noindex и перенаправленные страницы, robots.txt не должен блокировать отправленные страницы. Если они заблокированы, выясните, что это за страницы, затем настройте файл robots.txt соответствующим образом, чтобы удалить запрет для этой страницы.

Чтобы узнать, какая директива блокирует контент, можно использовать инструмент для тестирования robots.txt от Google. Только будьте осторожны. Не допускайте ошибок, которые влияют на другие страницы и файлы.

Заблокированы в файле robots.txt

Это означает, что у вас есть контент, заблокированный в файле robots.txt, который в настоящее время не индексируется в Google.

Если это важный контент и его нужно проиндексировать, удалите запрет сканирования в файле robots.txt. (Также стоит убедиться, что контент не запрещён к индексированию тегом noindex). Если вы запретили доступ к контенту в файле robots.txt чтобы исключить его из индекса Google, удалите запрет сканирования и используйте вместо него метатег robots или x‑robots-header. Это единственный способ гарантированно исключить контент из индекса Google.

Проиндексировано, несмотря на блокировку в файле robots.txt

Это означает, что часть контента, заблокированного robots.txt, все еще находится в индексе Google.

Повторюсь, что если вы хотите исключить контент из результатов поиска Google, robots.txt вам не поможет. Удалите запрет на сканирование и вместо этого используйте мета-тег robots или HTTP-заголовок x‑robots-tag.

Если вы случайно заблокировали этот контент и хотите оставить его в индексе Google, удалите запрет на сканирование в файле robots.txt. Это поможет улучшить видимость контента в поиске Google.

Вот несколько часто задаваемых вопросов, которые не подходят ни одному разделу в нашем руководстве. Если чего-то не хватает, сообщите нам в комментариях и мы обязательно это добавим.

Какой максимальный размер файла robots.txt?

Где находится файл robots.txt в WordPress?

Там же: domain.com/robots.txt.

Как отредактировать файл robots.txt в WordPress?

Либо вручную, либо воспользоваться одним из SEO плагинов для WordPress наподобие Yoast. Он позволяет редактировать файл прямо из админпанели WordPress.

Что будет, если в файле robots.txt запретить доступ к контенту с тегои noindex?

Google не сможет увидеть директиву noindex, потому что он не будет сканировать страницу

А вы знали что нет смысла запрещать доступ к странице с помощью robots.txt disallow & и тегом noindex, потому что Googlebot не увидит noindex? pic.twitter.com/N4639rCCWt

Заключение

Robots.txt — это простой, но важный файл. Используйте его с умом и увидите позитивное влияние на SEO. Используйте его как попало и, ну, сами пожалеете об этом.

Остались вопросы? Оставьте комментарий или напишите мне в Twitter.

Источник

Руководство: как закрыть сайт от индексации в поисковых системах? Работа с файлом robots.txt

На стадии разработки и/или редизайна проекта бывают ситуации, когда лучше не допускать поисковых роботов на сайт или его копию. В этом случае рекомендуется закрыть сайт от индексации поисковых систем. Сделать это можно следующим образом:

Закрыть сайт от индексации очень просто, достаточно создать в корне сайта текстовый файл robots.txt и прописать в нём следующие строки:

User-agent: Yandex
Disallow: /

Такие строки закроют сайт от поискового робота Яндекса.

А таким образом можно закрыть сайт от всех поисковых систем (Яндекса, Google и других).

Как закрыть от индексации отдельную папку? #

Отдельную папку можно закрыть от поисковых систем в том же файле robots.txt с её явным указанием (будут скрыты все файлы внутри этой папки).

User-agent: *
Disallow: /folder/

Если какой-то отдельный файл в закрытой папке хочется отдельно разрешить к индексации, то используйте два правила Allow и Disallow совместно:

User-agent: *
Аllow: /folder/file.php
Disallow: /folder/

Как закрыть отдельный файл в Яндексе? #

User-agent: Yandex
Disallow: /folder/file.php

Как проверить, в индексе документ или нет? #

Проще всего осуществить проверку в рамках сервиса «Пиксель Тулс», бесплатный инструмент «Определение возраста документа в Яндексе» позволяет ввести URL списком. Если документ отсутствует в индексе, то в таблице будет выведено соответствующее значение.

Анализ проведён с помощью инструментов в сервисе Пиксель Тулс.

Как скрыть от индексации картинки? #

Картинки форматов jpg, png и gif могут быть запрещены к индексации следующими строчками в robots.txt:

User-Agent: *
Disallow: *.jpg
Disallow: *.png
Disallow: *.gif

Как закрыть поддомен? #

У каждого поддомена на сайте, в общем случае, имеется свой файл robots.txt. Обычно он располагается в папке, которая является корневой для поддомена. Требуется скорректировать содержимое файла с указанием закрываемых разделов с использованием директории Disallow. Если файл отсутствует — его требуется создать.

Читайте также:  Что такое мягкие валюты

При использовании CDN-версии #

Как обращаться к другим поисковым роботам (список) #

У каждой поисковой системы есть свой список поисковых роботов (их несколько), к которым можно обращаться по имени в файле robots.txt. Приведем список основных из них (полные списки ищите в помощи Вебмастерам):

Прочие директивы в robots.txt #

Поисковая система Яндекс также поддерживает следующие дополнительные директивы в файле:

«Crawl-delay:» — задает минимальный период времени в секундах для последовательного скачивания двух файлов с сервера. Также поддерживается и большинством других поисковых систем. Пример записи: Crawl-delay: 0.5

«Clean-param:» — указывает GET-параметры, которые не влияют на отображение контента сайта (скажем UTM-метки или ref-ссылки). Пример записи: Clean-param: utm /catalog/books.php

«Sitemap:» — указывает путь к XML-карте сайта, при этом, карт может быть несколько. Также директива поддерживается большинством поисковых систем (в том числе Google). Пример записи: Sitemap: https://pixelplus.ru/sitemap.xml

Закрыть страницу и сайт с помощью meta-тега name=»robots» #

Также, можно закрыть сайт или заданную страницу от индексации с помощь мета-тега robots. Данный способ является даже предпочтительным и с большим приоритетом выполняется пауками поисковых систем. Для скрытия от индексации внутри зоны документа устанавливается следующий код:

Или (полная альтернатива):

С помощью meta-тега можно обращаться и к одному из роботов, используя вместо name=»robots» имя робота, а именно:

Для паука Google:

Или для Яндекса:

Источник

Файл robots.txt или как сделать робота своими руками

Как определение, Robots.txt — это стандарт исключений для роботов, который был принят консорциумом W3C 30 января 1994 года, и который добровольно использует большинство поисковых систем. Файл robots.txt состоит из набора инструкций для поисковых роботов, которые запрещают индексацию определенных файлов, страниц или каталогов на сайте. Рассмотрим описание robots.txt для случая, когда сайт не ограничивает доступ роботам к сайту.

Здесь роботс полностью разрешает индексацию всего сайта.

Файл robots.txt необходимо загрузить в корневой каталог вашего сайта, чтобы он был доступен по адресу:

Для размещения файла в корне сайта обычно необходим доступ через FTP. Однако, некоторые системы управления (CMS) дают возможность создать robots.txt непосредственно из панели управления сайтом или через встроенный FTP-менеджер.

Если файл доступен, то вы увидите содержимое в браузере.

Для чего нужен robots.txt

Сформированный файл для сайта является важным аспектом поисковой оптимизации. Зачем нужен robots.txt? Например, в SEO robots.txt нужен для того, чтобы исключать из индексации страницы, не содержащие полезного контента и многое другое. Как, что, зачем и почему исключается уже было описано в статье про запрет индексации страниц сайта, здесь не будем на этом останавливаться. Нужен ли файл robots.txt всем сайтам? И да и нет. Если использование подразумевает исключение страниц из поиска, то для небольших сайтов с простой структурой и статичными страницами подобные исключения могут быть лишними. Однако, и для небольшого сайта могут быть полезны некоторые директивы, например директива Host или Sitemap, но об этом ниже.

Как создать robots.txt

Поскольку это текстовый файл, нужно воспользоваться любым текстовым редактором, например Блокнотом. Как только вы открыли новый текстовый документ, вы уже начали создание robots.txt, осталось только составить его содержимое, в зависимости от ваших требований, и сохранить в виде текстового файла с названием robots в формате txt. Все просто, и создание файла не должно вызвать проблем даже у новичков. О том, как составить и что писать в роботсе на примерах покажу ниже.

Cоздать robots.txt онлайн

Вариант для ленивых: скачать в уже в готовом виде. Создание robots txt онлайн предлагает множество сервисов, выбор за вами. Главное — четко понимать, что будет запрещено и что разрешено, иначе создание файла robots.txt online может обернуться трагедией, которую потом может быть сложно исправить. Особенно, если в поиск попадет то, что должно было быть закрытым. Будьте внимательны — проверьте свой файл роботс, прежде чем выгружать его на сайт. Все же пользовательский файл robots.txt точнее отражает структуру ограничений, чем тот, что был сгенерирован автоматически и скачан с другого сайта. Читайте дальше, чтобы знать, на что обратить особое внимание при редактировании robots.txt.

Редактирование robots.txt

После того, как вам удалось создать файл robots.txt онлайн или своими руками, вы можете редактировать robots.txt. Изменить его содержимое можно как угодно, главное — соблюдать некоторые правила и синтаксис robots.txt. В процессе работы над сайтом, файл роботс может меняться, и если вы производите редактирование robots.txt, то не забывайте выгружать на сайте обновленную, актуальную версию файла со всем изменениями. Далее рассмотрим правила настройки файла, чтобы знать, как изменить файл robots.txt и «не нарубить дров».

Правильная настройка robots.txt

Правильная настройка robots.txt позволяет избежать попадания частной информации в результаты поиска крупных поисковых систем. Однако, не стоит забывать, что команды robots.txt не более чем руководство к действию, а не защита. Роботы надежных поисковых систем, вроде Яндекс или Google, следуют инструкциям robots.txt, однако прочие роботы могут легко игнорировать их. Правильное понимание и применение robots.txt — залог получения результата.

Чтобы понять, как сделать правильный robots txt, для начала необходимо разобраться с общими правилами, синтаксисом и директивами файла robots.txt.

Примеры User-agent в robots.txt:

Учитывайте, что подобная настройка файла robots.txt указывает роботу использовать только директивы, соответствующие user-agent с его именем.

Пример robots.txt с несколькими вхождениями User-agent:

Директива User-agent создает лишь указание конкретному роботу, а сразу после директивы User-agent должна идти команда или команды с непосредственным указанием условия для выбранного робота. В примере выше используется запрещающая директива «Disallow», которая имеет значение «/*utm_». Таким образом, закрываем все страницы с UTM-метками. Правильная настройка robots.txt запрещает наличие пустых переводов строки между директивами «User-agent», «Disallow» и директивами следующими за «Disallow» в рамках текущего «User-agent».

Пример неправильного перевода строки в robots.txt:

Пример правильного перевода строки в robots.txt:

Как видно из примера, указания в robots.txt поступают блоками, каждый из которых содержит указания либо для конкретного робота, либо для всех роботов «*».

Кроме того, важно соблюдать правильный порядок и сортировку команд в robots.txt при совместном использовании директив, например «Disallow» и «Allow». Директива «Allow» — разрешающая директива, является противоположностью команды robots.txt «Disallow» — запрещающей директивы.

Пример совместного использования директив в robots.txt:

Данный пример запрещает всем роботам индексацию всех страниц, начинающихся с «/blog», но разрешает индексации страниц, начинающиеся с «/blog/page».

Прошлый пример robots.txt в правильной сортировке:

Сначала запрещаем весь раздел, потом разрешаем некоторые его части.

Еще один правильный пример robots.txt с совместными директивами:

Обратите внимание на правильную последовательность директив в данном robots.txt.

Директивы «Allow» и «Disallow» можно указывать и без параметров, в этом случае значение будет трактоваться обратно параметру «/».

Пример директивы «Disallow/Allow» без параметров:

Как составить правильный robots.txt и как пользоваться трактовкой директив — ваш выбор. Оба варианта будут правильными. Главное — не запутайтесь.

Для правильного составления robots.txt необходимо точно указывать в параметрах директив приоритеты и то, что будет запрещено для скачивания роботам. Более полно использование директив «Disallow» и «Allow» мы рассмотрим чуть ниже, а сейчас рассмотрим синтаксис robots.txt. Знание синтаксиса robots.txt приблизит вас к тому, чтобы создать идеальный robots txt своими руками.

Синтаксис robots.txt

Роботы поисковых систем добровольно следуют командам robots.txt — стандарту исключений для роботов, однако не все поисковые системы трактуют синтаксис robots.txt одинаково. Файл robots.txt имеет строго определённый синтаксис, но в то же время написать robots txt не сложно, так как его структура очень проста и легко понятна.

Вот конкретные список простых правил, следуя которым, вы исключите частые ошибки robots.txt:

Поскольку разные поисковые системы могут трактовать синтаксис robots.txt по-разному, некоторые пункты можно опустить. Так например, если прописать несколько директив «User-agent» без пустого перевода строки, все директивы «User-agent» будут восприняты корректно Яндексом, так как Яндекс выделяет записи по наличию в строке «User-agent».

В роботсе должно быть указано строго только то, что нужно, и ничего лишнего. Не думайте, как прописать в robots txt все, что только можно и чем его заполнить. Идеальный robots txt — это тот, в котором меньше строк, но больше смысла. «Краткость — сестра таланта». Это выражение здесь как нельзя кстати.

Читайте также:  Что такое мониторная акустика

Как проверить robots.txt

Для того, чтобы проверить robots.txt на корректность синтаксиса и структуры файла, можно воспользоваться одной из онлайн-служб. К примеру, Яндекс и Google предлагают собственные сервисы анализа сайта для вебмастеров, которые включают анализ robots.txt:

Для того, чтобы проверить robots.txt онлайн необходимо загрузить robots.txt на сайт в корневую директорию. Иначе, сервис может сообщить, что не удалось загрузить robots.txt. Рекомендуется предварительно проверить robots.txt на доступность по адресу где лежит файл, например: ваш_сайт.ru/robots.txt.

Кроме сервисов проверки от Яндекс и Google, существует множество других онлайн валидаторов robots.txt.

Robots.txt vs Яндекс и Google

Есть субъективное мнение, что указание отдельного блока директив «User-agent: Yandex» в robots.txt Яндекс воспринимает более позитивно, чем общий блок директив с «User-agent: *». Аналогичная ситуация robots.txt и Google. Указание отдельных директив для Яндекс и Google позволяет управлять индексацией сайта через robots.txt. Возможно, им льстит персонально обращение, тем более, что для большинства сайтов содержимое блоков robots.txt Яндекса, Гугла и для других поисковиков будет одинаково. За редким исключением, все блоки «User-agent» будут иметь стандартный для robots.txt набор директив. Так же, используя разные «User-agent» можно установить запрет индексации в robots.txt для Яндекса, но, например не для Google.

Отдельно стоит отметить, что Яндекс учитывает такую важную директиву, как «Host», и правильный robots.txt для яндекса должен включать данную директиву для указания главного зеркала сайта. Подробнее директиву «Host» рассмотрим ниже.

Запретить индексацию: robots.txt Disallow

Disallow — запрещающая директива, которая чаще всего используется в файле robots.txt. Disallow запрещает индексацию сайта или его части, в зависимости от пути, указанного в параметре директивы Disallow.

Пример как в robots.txt запретить индексацию сайта:

Данный пример закрывает от индексации весь сайт для всех роботов.

* — любое количество любых символов, например, параметру /page* удовлетворяет /page, /page1, /page-be-cool, /page/kak-skazat и т.д. Однако нет необходимости указывать * в конце каждого параметра, так как например, следующие директивы интерпретируются одинаково:

$ — указывает на точное соответствие исключения значению параметра:

В данном случае, директива Disallow будет запрещать /page, но не будет запрещать индексацию страницы /page1, /page-be-cool или /page/kak-skazat.

Если закрыть индексацию сайта robots.txt, в поисковые системы могут отреагировать на так ход ошибкой «Заблокировано в файле robots.txt» или «url restricted by robots.txt» (url запрещенный файлом robots.txt). Если вам нужно запретить индексацию страницы, можно воспользоваться не только robots txt, но и аналогичными html-тегами:

Разрешить индексацию: robots.txt Allow

Allow — разрешающая директива и противоположность директиве Disallow. Эта директива имеет синтаксис, сходный с Disallow.

Пример, как в robots.txt запретить индексацию сайта кроме некоторых страниц:

Запрещается индексировать весь сайт, кроме страниц, начинающихся с /page.

Disallow и Allow с пустым значением параметра

Пустая директива Disallow:

Не запрещать ничего или разрешить индексацию всего сайта и равнозначна:

Пустая директива Allow:

Разрешить ничего или полный запрет индексации сайта, равнозначно:

Главное зеркало сайта: robots.txt Host

Или для определения приоритета между:

Пример robots.txt с указанием главного зеркала:

В качестве главного зеркала указывается доменное имя mysite.ru без www. Таки образом, в результатах поиска буде указан именно такой вид адреса.

В качестве основного зеркала указывается доменное имя www.mysite.ru.

Директива Host в файле robots.txt может быть использована только один раз, если же директива Хост будет указана более одного раза, учитываться будет только первая, прочие директивы Host будут игнорироваться.

Если вы хотите указать главное зеркало для робота Google, воспользуйтесь сервисом Google Инструменты для вебмастеров.

Карта сайта: robots.txt sitemap

При помощи директивы Sitemap, в robots.txt можно указать расположение на сайте файла карты сайта sitemap.xml.

Пример robots.txt с указанием адреса карты сайта:

Указание адреса карты сайта через директиву Sitemap в robots.txt позволяет поисковому роботу узнать о наличии карты сайта и начать ее индексацию.

Директива Clean-param

Директива Clean-param позволяет исключить из индексации страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL страницы. Проще говоря, будто страница доступна по разным адресам. Наша задача убрать все лишние динамические адреса, которых может быть миллион. Для этого исключаем все динамические параметры, используя в robots.txt директиву Clean-param.

Синтаксис директивы Clean-param:

Рассмотрим на примере страницы со следующим URL:

Пример robots.txt Clean-param:

Директива Crawl-delay

Данная инструкция позволяет снизить нагрузку на сервер, если роботы слишком часто заходят на ваш сайт. Данная директива актуальна в основном для сайтов с большим объемом страниц.

Пример robots.txt Crawl-delay:

В данном случае мы «просим» роботов яндекса скачивать страницы нашего сайта не чаще, чем один раз в три секунды. Некоторые поисковые системы поддерживают формат дробных чисел в качестве параметра директивы Crawl-delay robots.txt.

Комментарии в robots.txt

Комментарий в robots.txt начинаются с символа решетки — #, действует до конца текущей строки и игнорируются роботами.

Примеры комментариев в robots.txt:

В заключении

Файл robots.txt — очень важный и нужный инструмент взаимодействия с поисковыми роботами и один из важнейших инструментов SEO, так как позволяет напрямую влиять на индексацию сайта. Используйте роботс правильно и с умом.

Если у вас есть вопросы — пишите в комментариях.
Рекомендуйте статью друзьям и не забывайте подписываться на блог.
Новые интересные статьи каждый день.

Добавить комментарий (23) Отменить ответ

Теперь было бы хорошо привести ПОЛНЫЙ пример файла robots.txt для сайта, который можно использовать у себя на сайте при минимальном исправлении.

было бы интересно найти такой пример) ведь для каждой cms свой роботс) у каждого сайта есть свои уникальные страницы, которые надо закрывать) Наверное, для всех можно выделить только директории админа))

Этого невозможно сделать. Под каждую CMS, под каждый сайт свои директивы нужно прописывать. Каждый движок генерируют уникальный мусор

вот эта строка» Будет использована всеми роботами кроме роботов Яндекса и Google
User-agent: * » — разве это так? во всех источниках, да и на практике — это «правило равнозначное для всех роботов», при этом для каждого можно отдельно. Я сбита с толку)

* читает ПС, если не указано правило для конкретной ПС, может проверить это в вебмастере яндекса или гугла.

Это приветствие для всех роботов систем

Присоединяюсь к Андрею Алекс. Вы могли бы выложить пример полного файла роботс?

1. в любой ЦМС, есть правильный файл роботс
2. на 99% сайтов вы можете посмотреть его сами по адресу сайт/ротос.тхт

Здравствуйте! Статья полезная, но невероятна тяжело читается и воспринимается. Каждое второе слово — robots.txt — просто мешает понять суть (всего их около 130 в статье!)

Добрый день!
в старом роботс вы указали директву хост на главное зеркало?

А как быть в случае, когда основной домен (сайт.ру) не используется, а используются только его поддомены (ваш.сайт.ру)? Роботс создается для каждого свой или один на все?

Поддомен считается как с технической точки зрения, так и с точки зрения поисковой системы — отдельным сайтом, поэтому нужно делать роботс под каждый поддомен…

Почему у robots.txt вашего сайта 2 раза указаны sitemap?

Александр, перестраховался seo-специалист (конечно, ошибка, так делать не стоит)

Другoй формат файла Sitemap это текстовый файл sitemap.txt (в каждой строке должен быть только один URL).

Ali, есть правила по форматам файлов индексации.
Пробовать этот бред не буду, но, вангую, системы напишут «формат этого файла Sitemap не поддерживается».
Что за мысль вообще такая странная??
Ждем вашего ответа, естественно)

Не подскажите как отредактировать роботс тхт для турбо страниц яндекса?

В robots.txt дополнительно прописывать не надо, это ваши обычные страницы транслируемые через rss-фид c серверов Яндекса. Все пожелания для них вы уже указали.

Уточните пожалуйста. Если главная страница сайта открывается по нескольким адресам ( http, https, c / в конце и без него, www и без него). Надо выбрать один адрес. Например, https://сайт/, а все остальные запретить обходить и вписать в файл robot. txt, вписывая каждый адрес с новой строки с Clean-param:… А ту не поняла. Можете написать пример, если надо запретить url- http://www.сайт

Подскажите, пожалуйста. В роботс.тхт есть такая запись Disallow: *Vivoil* [марка производителя]. Как интерпретировать эту запись? Может ли быть такое, что все УРЛ, где есть это слово, не индексируются?

Источник

Информ портал о технике и не только