Личные инструменты
Просмотры

Robots.txt (Файл)

Материал из SEO — Энциклопедия

Перейти к: навигация, поиск

Robots.txt - стопроцентное оправдание своего названия, являясь инструкцией для поисковых роботов. Файл robots.txt вносится корневую папку сайта и управляет поведением поисковых роботов, главным образом, запрещая индексацию той или иной части сайта.

История возникновения robots.txt

В середине 90-х годов с развитием поисковых сервисов во всемирной паутине выяснилось, что действия поисковых машин существенно затрудняют пользователям работу с сайтами. Происходило это, в основном, из-за того, что поисковики, индексируя сайты, обращались ко всему его содержимому, включая малозначительные для индексации страницы. Возникла необходимость создания эффективного инструмента, прямо указывающего поисковой машине, на какие страницы следует обращать внимание, а какие игнорировать. В июне 1994 года большинство производителей и администраторов поисковых систем и некоторые заинтересованные структуры заключили соглашение о разработке единого программного средства, управляющего действиями поисковика на сайте. В результате соглашения на свет появился стандарт написания рабочих файлов robots.txt. Правда, это не программа, а всего лишь текстовый файл, но, тем не менее, инструмент работоспособный.

Поисковая машина и robots.txt

Входя на сайт, поисковый робот, прежде всего, анализирует структуру и обращается к файлу robots.txt. Внешне файл robots.txt выглядит следующим образом:

  • User-agent: *
  • Disallow: /tmp/
  • Disallow: /cgi-bin/

Этот пример файла robots.txt демонстрирует запрет индексации двух папок. Звёздочка, расположенная после фразы User-agent, говорит о том, что указания, содержащиеся в robots.txt, предназначаются для всех поисковых роботов. На месте звёздочки может быть указано и название какого-то одного робота. В этом случае проведение индексации запрещено только данному поисковику. Слово «Disallow» в robots.txt как раз и обозначает запрет индексации. Очень большое значение имеет косая черта после слова «disallow» – слэш. Поясним на примере. Запись вида:

  • User-agent: *
  • Disallow: /

обозначает запрет индексации сайта целиком всеми роботами. Однако если после слова «disallow» косой черты слэш не будет фигурировть, то ситуация прямо противоположная – весь сайт разрешён для индексации всеми роботами. При создании файла robots.txt на наличие или отсутствие слэша необходимо обращать пристальное внимание.

Следует отметить, что существуют и другие способы запрета индексации – атрибут nofollow и тег noindex, но поисковики (такие как Яндекс или Google) более лояльны именно к содержимому robots.txt.