Личные инструменты
Просмотры

Поисковый робот

Материал из SEO — Энциклопедия

(перенаправлено с «Бот»)
Перейти к: навигация, поиск

Поисковый робот - это важнейший элемент поисковой системы, в задачу которого входит сбор новых данных о сайтах и их обновлениях. Поисковый робот представляет собой программу, которая действует приблизительно также, как и браузерная программа – считывает информацию с веб-страниц. Поисковый робот, бот, краулер, поисковый паук, web crawler, ant, automatic indexer, bot, web spider, web robots, web scutter – это все названия одного и того же явления, которые могут встречаться в англоязычном и русскоязычном интернете.

Поисковая система может располагать не одним, а несколькими поисковыми роботами. Каждый бот представляет собой автоматический скрипт, имеющий свой алгоритм работы, свое конкретное задание для определенного сайта.

Бот как корабль-исследователь

Чтобы представить себе механизм работы робота, воспользуемся художественным образом. Представьте океан, в котором существуют архипелаги островов. Часть этих островов открыта, изучена, нанесена на карту. Часть еще не открыта. Часть только что появилась, например, в результате вулканической деятельности. Корабль-исследователь (или несколько кораблей) заходят на острова, а затем информация заносится на карту. Вот на карте появился новый остров. Вот старый остров, на на нем выстроен город. А этот остров исчез, ушел под воду.

Так же как корабль-исследователь, бот методично прочесывает интернет в поисках новых сайтов, новых страниц, новых файлов, считывает, заносит их в реестр поисковой машины, то есть индексирует. Для чего это нужно поисковой системе? Для того, чтобы она могла выдать на запрос самый точный ответ, соответствующий картине данных на самый последний момент. Для чего это нужно сайту? Для того, чтобы попасть в выдачу, то есть для того, чтобы на поисковый запрос, связанный с ним, система в своем ответе указала бы именно этот сайт. Для чего это нужно пользователю? Для получения правильного адекватного ответа на свой вопрос.

Паучья деятельность

Итак, в море интернета появился новый остров – новый сайт. Как долго он будет оставаться в безвестности, даже если содержит необходимую информацию? Как много времени нужно веб-пауку, чтобы добраться до него и занести в свой список? Как часто краулер будет замечать изменения, которые происходят на сайте? Вся ли информация доступна пауку? Что делать, чтобы в поиск не попадали определенные страницы и файлы?

Паучья деятельность так устроена, что рано или поздно сайт будет замечен и проиндексирован. Однако, это может занять несколько месяцев. Чтобы поисковый робот быстрее заметил его, нужно внести сайт в специальные списки-каталоги, существующие при поисковых системах. Речь в первую очередь идет о таких поисковых колоссах, как Google и Яндекс. Раз проиндексировав сайт, бот будет регулярно туда заходить. Однако частота его посещений напрямую связана с частотой обновления сайтов. Заметив, что сайт обновляется примерно раз в неделю, бот заходит туда примерно столько же, соответственно, новая веб-страница сайта может оставаться незамеченной несколько дней. И наоборот: существуют подвижные блоги, которые добавляют записи по несколько раз в день. Соответственно, робот контролирует их очень часто и новые страницы индексируются уже через несколько минут. Деятельность робота определяется заданным поисковым алгоритмом, система алгоритмов гибкая и меняется.

Задания и ограничения

Как уже было сказано, система обладает большим отрядом разных роботов, которые выполняют разные задачи: одни ищут новые страницы, другие отвечают за нахождение “мертвых” сайтов и чистку поисковых данных, третьи индексируют картинки, четвертые – находят видео. Есть робот, отвечающий за проверку корректности ссылок и робот, который читает исключительно комментарии.

Для робота одно из важнейших значений имеет корневой файл robots.txt, расположенный на подконтрольном сервере. Зайдя на любой сайт, робот обращается в первую очередь к нему. Этот файл – инструкция для робота. Во-первых, robots.txt может вообще не допустить бота на сайт и сайт останется непроиндексированным. Во-вторых, robots.txt может закрыть боту доступ к определенным страницам и файлам.