Как называется бот гугла. Поисковый робот google: какую работу выполняет. Роботы основных поисковых систем

Ежедневно в интернете появляется огромное количество новых материалов: создаются сайты, обновляются старые веб-страницы, загружаются фотографии и видеофайлы. Без невидимых поисковых роботов невозможно было бы найти во всемирной паутине ни один из этих документов. Альтернативы подобным роботизированным программам на данный момент времени не существует. Что такое поисковый робот, зачем он нужен и как функционируют?

Что такое поисковый робот

Поисковый робот сайтов (поисковых систем) - это автоматическая программа, которая способна посещать миллионы веб-страниц, быстро перемещаясь по интернету без вмешательства оператора. Боты постоянно сканируют пространство находят новые интернет-страницы и регулярно посещают уже проиндексированные. Другие названия поисковых роботов: пауки, краулеры, боты.

Зачем нужны поисковые роботы

Основная функция, которую выполняют поисковые роботы, - индексация веб-страниц, а также текстов, изображений, аудио- и видеофайлов, находящихся на них. Боты проверяют ссылки, зеркала сайтов (копии) и обновления. Роботы также осуществляют контроль HTML-кода на предмет соотвествия нормам Всемирной организации, которая разрабатывает и внедряет технологические стандарты для Всемирной паутины.

Что такое индексация и зачем она нужна

Индексация - это, собственно, и есть процесс посещения определенной веб-страницы поисковыми роботами. Программа сканирует тексты, размещенные на сайте, изображения, видео, исходящие ссылки, после чего страница появляется в результатах поиска. В некоторых случаях сайт не может быть просканирован автоматически, тогда он может быть добавлен в поисковую систему вручную веб-мастером. Как правило, это происходит при отсутствии на определенную (часто только недавно созданную) страницу.

Как работают поисковые роботы

Каждая поисковая система имеет собственного бота, при этом поисковый робот Google может значительно отличаться по механизму работы от аналогичной программы "Яндекса" или других систем.

В общих чертах принцип работы робота заключается в следующем: программа «приходит» на сайт по внешним ссылкам и, начиная с главной страницы, «читает» веб-ресурс (в том числе просматривая те служебные данные, которые не видит пользователь). Бот может как перемещаться между страницами одного сайта, так и переходить на другие.

Как программа выбирает, какой Чаще всего «путешествие» паука начинается с новостных сайтов или крупных ресурсов, каталогов и агрегаторов с большой ссылочной массой. Поисковый робот непрерывно сканирует страницы одну за другой, на скорость и последовательность индексации влияют следующие факторы:

  • внутренние : перелиновка (внутренние ссылки между страницами одного и того же ресурса), размер сайта, правильность кода, удобство для пользователей и так далее;
  • внешние : общий объем ссылочной массы, которая ведет на сайт.

Первым делом поисковый робот ищет на любом сайте файл robots.txt. Дальнейшая индексация ресурса проводится, основываясь на информации, полученной именно от этого документа. Файл содержит точные инструкции для "пауков", что позволяет повысить шансы посещения страницы поисковыми роботами, а следовательно, и добиться скорейшего попадания сайта в выдачу "Яндекса" или Google.

Программы-аналоги поисковых роботов

Часто понятие «поисковый робот» путают с интеллектуальными, пользовательскими или автономными агентами, "муравьями" или "червями". Значительные отличия имееются только по сравнению с агентами, другие определения обозначают схожие виды роботов.

Так, агенты могут быть:

  • интеллектуальными : программы, которые перемещаются от сайта к сайту, самостоятельно решая, как поступать дальше; они мало распространены в интернете;
  • автономными : такие агенты помогают пользователю в выборе продукта, поиске или заполнении форм, это так называемые фильтры, которые мало относятся к сетевым программам.;
  • пользовательскими : программы способствуют взаимодействию пользователя со Всемирной паутиной, это браузеры (например, Opera, IE, Google Chrome, Firefox), мессенджеры (Viber, Telegram) или почтовые программы (MS Outlook или Qualcomm).

"Муравьи" и "черви" больше схожи с поисковыми "пауками". Первые образуют между собой сеть и слаженно взаимодействуют подобно настоящей муравьиной колонии, "черви" же способны самовоспроизводиться, в остальном действуют так же, как и стандартный поисковый робот.

Разновидности поисковых роботов

Различают множество разновидностей поисковых роботов. В зависимости от назначения программы они бывают:

  • «Зеркальными» - просматривают дубликаты сайтов.
  • Мобильными - нацелены на мобильные версии интернет-страниц.
  • Быстродействующими - фиксируют новую информацию оперативно, просматривая последние обновления.
  • Ссылочными - индексируют ссылки, подсчитывают их количество.
  • Индексаторами различных типов контента - отдельных программ для текста, аудио- и видеозаписей, изображений.
  • «Шпионскими» - ищут страницы, которые еще не отображаются в поисковой системе.
  • «Дятлами» - периодически посещают сайты, чтобы проверить их актуальность и работоспособность.
  • Национальными - просматривают веб-ресурсы, расположенные на доменах одной страны (например, .ru, .kz или.ua).
  • Глобальными - индексируют все национальные сайты.

Роботы основных поисковых систем

Существуют также отдельные роботы поисковых систем. В теории их функциональность может значительно различаться, но на практике программы практически идентичны. Основные отличия индексации интернет-страниц роботами двух основных поисковых систем состоят в следующем:

  • Строгость проверки. Считается, что механизм поискового робота "Яндекса" несколько строже оценивает сайт на соответствие стандартам Всемирной паутины.
  • Сохранение целостности сайта. Поисковый робот Google индексирует сайт целиком (в том числе медиаконтент), "Яндекс" же может просматривать страницы выборочно.
  • Скорость проверки новых страниц. Google добавляет новый ресурс в поисковую выдачу в течение нескольких дней, в случае с "Яндексом" процесс может растянуться на две недели и более.
  • Частота переиндексации. Поисковый робот "Яндекса" проверяет наличие обновлений пару раз в неделю, а Google - один раз в 14 дней.

Интернет, конечно же, не ограничивается двумя поисковыми системами. Другие поисковики имеют своих роботов, которые следуют собственным параметрам индексации. Кроме того, существует несколько "пауков", которые разработаны не крупными поисковыми ресурсами, а отдельными командами или веб-мастерами.

Распространенные заблуждения

Вопреки распространенному мнению, "пауки" не обрабатывают полученную информацию. Программа только сканирует и сохраняет веб-страницы, а дальнейшей обработкой занимаются совершенно другие роботы.

Также многие пользователи считают, что поисковые роботы оказывают негативное воздействие и «вредны» интернету. Действительно, отдельные версии "пауков" могут значительно перегружать сервера. Имеет место и человеческий фактор - веб-мастер, который создавал программу, может допускать ошибки в настройках робота. Все же большинство действующих программ хорошо спроектированы и профессионально управляются, а любые возникающие неполадки оперативно устраняются.

Как управлять индексацией

Поисковые роботы являются автоматическими программами, но процесс индексации может частично контролироваться веб-мастером. В этом значительно помогает внешняя и ресурса. Кроме того, можно вручную добавить новый сайт в поисковую систему: крупные ресурсы имеют специальные формы регистрации веб-страниц.

Иногда роботы могут маскироваться под роботов Яндекса путем указания соответствующего User-agent. Вы можете проверить, что робот является тем, за кого себя выдает используя идентификацию, основанную на обратных DNS-запросах (reverse DNS lookup).

Для этого необходимо выполнить следующее:

    По IP-адресу определите доменное имя хоста с помощью обратного DNS-запрос.

    Проверьте, принадлежит ли хост Яндексу. Имена всех роботов Яндекса заканчиваются на сайт , yandex.net или yandex.com . Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.

  1. Удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS-запрос (forward DNS lookup), чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, использованным при обратном DNS запросе. Если IP-адреса не совпадают, это означает, что полученное имя хоста поддельное.

    1. Вопросы и ответы

Роботы Яндекса в логах сервера

Некоторые роботы Яндекса скачивают документы не для их последующей индексации, а для других специфичных целей. Для избежания непреднамеренной блокировки владельцами сайтов они могут не учитывать ограничивающие директивы файла robots.txt , предназначенным для произвольных роботов (User-agent: * ).

Также частичное игнорирование ограничений robots.txt определенных сайтов возможно при наличии соответствующей договоренности между компанией «Яндекс» и владельцами этих сайтов.

Примечание. Если такой робот скачает документ, не доступный основному роботу Яндекса, этот документ никогда не будет проиндексирован и не попадет в поисковую выдачу.

Чтобы ограничить доступ таких роботов к сайту, используйте директивы специально для них, например:

User-agent: YandexCalendar\nDisallow: /\n\nUser-agent: YandexMobileBot\nDisallow: /private/*.txt$

Роботы используют множество IP-адресов, которые часто меняются. Поэтому их список не разглашается.

Полное имя робота, включая User agent Назначение робота Учитывает общие правила, указанные в robots.txt
Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots)

Скачивает страницы для проверки их доступности пользователям.

Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует и директиву Crawl-delay .

Нет
Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) Робот Рекламной сети Яндекса . Да
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) Робот поиска по блогам , индексирующий комментарии постов. Да
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) Основной индексирующий робот. Да
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots) Определяющий зеркала сайтов. Да
Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) Робот Яндекс.Календаря . Скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах. Нет
Mozilla/5.0 (compatible; YandexCatalog/3.0; +http://yandex.com/bots) Используется для временного снятия с публикации недоступных сайтов в Яндекс.Каталоге . Да
Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) Скачивает информацию о контенте сайтов-партнеров Рекламной сети Яндекса, чтобы уточнить их тематику для подбора релевантной рекламы. Нет
Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://yandex.com/bots Генерирует динамические баннеры. Нет
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) Скачивает файл фавиконки сайта для отображения в результатах поиска. Нет
Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots) Скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики. Это необходимо для размещения объявлений в поисковой выдаче и на сайтах-партнерах. Нет. Робот не использует файл robots.txt
Mozilla/5.0 (compatible; YandexForDomain/1.0; +http://yandex.com/bots) Робот почты для домена , используется при проверке прав на владение доменом. Да
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) Индексирует изображения для показа на Яндекс.Картинках . Да
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) Робот мобильных сервисов. Да
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots) Индексирующий робот. Да
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots) Определяет страницы с версткой, подходящей под мобильные устройства. Нет
Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) Робот Яндекс.Маркета . Да
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) Индексирует мультимедийные данные. Да
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) Робот Яндекс.Метрики Нет
Mozilla/5.0 (compatible; YandexMetrika/4.0; +http://yandex.com/bots) Робот Яндекс.Метрики . Скачивает и кэширует CSS-стили для воспроизведения страниц сайта в Вебвизоре . Нет. Робот не использует файл robots.txt , поэтому игнорирует директивы, установленные для него.
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots yabs01) Скачивает страницы сайта для проверки их доступности, в том числе проверяет целевые страницы объявлений Яндекс.Директа. Нет. Робот не использует файл robots.txt , поэтому игнорирует директивы, установленные для него.
Mozilla/5.0 (compatible; YandexNews/4.0; +http://yandex.com/bots) Робот Яндекс.Новостей Да
Mozilla/5.0 (compatible; YandexOntoDB/1.0; +http://yandex.com/bots) Робот объектного ответа . Да
Mozilla/5.0 (compatible; YandexOntoDBAPI/1.0; +http://yandex.com/bots) Робот объектного ответа , скачивающий динамические данные. Нет
Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots) Обращается к странице при валидации микроразметки через форму Валидатор микроразметки . Да
Mozilla/5.0 (compatible; YandexSearchShop/1.0; +http://yandex.com/bots) Скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах. Нет
Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) Проверяет доступность страниц, которые используются в качестве быстрых ссылок . Да
Mozilla/5.0 (compatible; YandexSpravBot/1.0; +http://yandex.com/bots) Робот Яндекс.Справочника . Да
Mozilla/5.0 (compatible; YandexTurbo/1.0; +http://yandex.com/bots) Обходит RSS-канал, созданный для формирования Турбо-страниц . Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс.Вебмастера и директиву Crawl-delay . Да
Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) Робот поисковых вертикалей. Да
Mozilla/5.0 (compatible; YandexVerticals/1.0; +http://yandex.com/bots) Робот Яндекс.Вертикалей: Авто.ру , Янекс.Недвижимость , Яндекс.Работа , Яндекс.Отзывы. Да
Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) Яндекс.Видео . Да
Mozilla/5.0 (compatible; YandexVideoParser/1.0; +http://yandex.com/bots) Индексирует видео для показа на

Поисковым роботом называется специальная программа какой-либо поисковой системы, которая предназначена для занесения в базу (индексирования) найденных в Интернете сайтов и их страниц. Также используются названия: краулер, паук, бот, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Принцип работы

Поисковый робот — это программа браузерного типа. Он постоянно сканирует сеть: посещает проиндексированные (уже известные ему) сайты, переходит по ссылкам с них и находит новые ресурсы. При обнаружении нового ресурса робот процедур добавляет его в индекс поисковика. Поисковый робот также индексирует обновления на сайтах, периодичность которых фиксируется. Например, обновляемый раз в неделю сайт будет посещаться пауком с этой частотой, а контент на новостных сайтах может попасть в индекс уже через несколько минут после публикации. Если на сайт не ведет ни одна ссылка с других ресурсов, то для привлечения поисковых роботов ресурс необходимо добавить через специальную форму (Центр вебмастеров Google, панель вебмастера Яндекс и т.д.).

Виды поисковых роботов

Пауки Яндекса :

  • Yandex/1.01.001 I — основной бот, занимающийся индексацией,
  • Yandex/1.01.001 (P) — индексирует картинки,
  • Yandex/1.01.001 (H) — находит зеркала сайтов,
  • Yandex/1.03.003 (D) — определяет, соответствует ли страница, добавленная из панели вебмастера, параметрам индексации,
  • YaDirectBot/1.0 (I) — индексирует ресурсы из рекламной сети Яндекса,
  • Yandex/1.02.000 (F) — индексирует фавиконы сайтов.

Пауки Google:

  • Робот Googlebot — основной робот,
  • Googlebot News — сканирует и индексирует новости,
  • Google Mobile — индексирует сайты для мобильных устройств,
  • Googlebot Images — ищет и индексирует изображения,
  • Googlebot Video — индексирует видео,
  • Google AdsBot — проверяет качество целевой страницы,
  • Google Mobile AdSense и Google AdSense — индексирует сайты рекламной сети Google.

Другие поисковики также используют роботов нескольких видов, функционально схожих с перечисленными.

Его работа заключается в тщательном анализе содержимого страниц представленных в Интернете сайтов и отправке результатов анализа в поисковой системы.

Новые страницы поисковый робот некоторое время обходит, но в дальнейшем они индексируются и при отсутствии каких-либо санкций со стороны поисковых систем могут отображаться в результатах поиска.

Принцип действия

Действие поисковых роботов основано на том же принципе, что и работа обыкновенного браузера. Посещая тот или иной сайт, они обходят часть его страниц или все страницы без исключения. Полученную информацию о сайте они отправляют в поисковый индекс. Эта информация появляется в поисковой выдаче, соответствующей тому или иному запросу.

Из-за того, что поисковые роботы могут посещать только часть страниц, с индексацией больших сайтов могут возникать проблемы. Такие же точно проблемы могут возникать из-за низкого качества .

Перебои в его работе делают часть страниц недоступными для анализа. Важную роль в оценке сайта поисковыми роботами играет правильно составленная и грамотно настроенный файл robots.txt.

Глубина сканирования ресурса и периодичность обхода сайтов поисковыми роботами зависит от:

  • Алгоритмов работы поисковых систем.
  • Частоты обновления сайтов.
  • Структуры сайтов.

Поисковый индекс

База данных с информацией, которую собирают поисковые роботы, называется поисковым индексом. Эта база используется поисковыми системами для формирования результатов выдачи по конкретным .

В индекс заносится не только информация о сайтах: поисковые роботы способны распознавать изображения, мультимедиа файлы и документы в различных электронных форматах (.docx, .pdf и др).

Один из самых активных поисковых роботов системы Яндекс – быстробот. Он постоянно сканирует новостные ресурсы и другие часто обновляемые сайты. , который не замечен быстроботом, не имеет смысла.

Привлечь его можно с помощью специальных инструментов, причем действенны они для сайтов самого разного назначения. Для проверки сайтов на доступность, для анализа отдельных их характеристик, для индексации картинок и документов в поисковых системах есть отдельные роботы.

Поисковый робот (бот, паук, spider, crawler) — это специальная программа поисковика, предназначенная для сканирования сайтов в сети Интернет.

Многие не знают, что сканирующие боты просто собирают и сохраняют информацию. Они не занимаются ее обработкой. Это делают другие программы.

Если у вас есть желание посмотреть на сайт глазами поискового робота, то можно это сделать через панель вебмастера.

Посмотреть как Google можно через панель вебмастера. Там нужно добавить свой сайт и потом можно будет посмотреть на странице:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Посмотреть как Яндекс можно через сохраненную копию страницы. Для этого находим нужную страницу в поиске Яндекса, жмем «сохраненная копия» и дальше «посмотреть текстовую версию».

Ниже приведу список поисковых роботов, которые ходят по нашим с вами сайтам. Одни из них индексируют сайты , другие следят за контекстной рекламой. Есть специализированные роботы, которые занимаются определенными узкими задачами. Например, индексируют картинки или новости.

Зная «в лицо» робота, можно запретить или разрешить ему ползать по сайту, тем самым можно снизить нагрузку на сервер. Ну или защитить свою информацию от попадания в сеть.

Поисковые роботы Яндекса

У поисковой системы Яндекс десятка полтора известных нам поисковых роботов. Список ботов, который мне удалось раскопать, в том числе и из официального хелпа, ниже.

YandexBot — основной индексирующий робот;
YandexMedia — робот, индексирующий мультимедийные данные;
YandexImages — индексатор Яндекс.Картинок;
YandexCatalog — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
YaDirectFetcher — робот Яндекс.Директа;
YandexBlogs — робот поиска по блогам, индексирующий посты и комментарии;
YandexNews — робот Яндекс.Новостей;
YandexWebmaster – приходит придобавлении сайта через форума AddURL;
YandexPagechecker — валидатор микроразметки;
YandexFavicons — индексатор фавиконок
YandexMetrika — робот Яндекс.Метрики;
YandexMarket — робот Яндекс.Маркета;
YandexCalendar — робот Яндекс.Календаря.

Поисковые роботы (боты) Google

Googlebot — основной индексирующий робот;
Googlebot Nes — индексатор новостей;
Googlebot Images — индексатор картинок;
Googlebot Video — робот для видео данных;
Google Mobile — индексатор мобильного контента;
Google Mobile AdSense — робот мобильного AdSense
Google AdSense — робот AdSense
Google AdsBot – бот проверки качества целевой страницы
Mediapartners-Google — робот AdSense

Роботы других поисковых систем

Так же, в логах своего сайта, вы можете наткнуться на некоторых роботов других поисковиков.

Рамблер — StackRambler
Мэйл.ру — Mail.Ru
Yahoo! — Slurp (или Yahoo! Slurp)
AOL — Slurp
MSN — MSNBot
Live — MSNBot
Ask — Teoma
Alexa — ia_archiver
Lycos — Lycos
Aport — Aport
Вебальта — WebAlta (WebAlta Crawler/2.0)

Кроме ботов поисковиков, по сайтам бегает огромная армия всяких левых пауков. Это различные парсеры, которые собирают информацию с сайтов, как правило, в корыстных целях их создателей.

Одни воруют контент, другие картинки, третьи взламывают сайты и расставляют втихаря ссылки. Если вы заметили, что подобный парсер присосался к вашему сайту — закройте ему доступ всеми возможными способами, в том числе и через