Поисковой паук (краулер): виды и функции. Часто задаваемые вопросы о поисковых роботах

16.08.2019

Поисковый робот – это программа, автоматически путешествующая по веб, запрашивая документы и рекурсивно получая все документы, на которые они ссылаются.

Заметьте, что слово «рекурсивно » здесь не относится к конкретной реализации алгоритмов. Робот может, например, случайным образом выбирать документ который будет обработан следующим, или посещать их через значительные промежутки времени, тем неменее он считается роботом.

Обычные веб-браузеры к роботам не относятся, поскольку управляются человеком и не получают документы, на которые стоят ссылки, автоматически (за исключением картинок, скриптов и т.п.).

Поисковых роботов иногда называют пауками, Web Wanderers или Web Crawlers. Такие названия вносят некоторую путаницу, так как создаётся впечатление, что программы перемещаются по интернету самостоятельно, на манер вирусов. Это не так, робот «посещает» сайты, попросту запрашивая с них документы.

Что такое агент?

Слово «агент » имеет несколько значений. Например:

Автономные агенты

это программы, перемещающиеся от сайта к сайту и самостоятельно решающие, что делать дальше. Обычно они перемещаются между специализированными серверами, и практически не распространены в интернете.

Интелектуальные агенты

это программы, помогающие пользователям – например в выборе продукта, заполнении форм или даже в поиске. Такие программы имеют очень небольшое отношение к сетевому взаимодействию.

Пользовательские агенты

это техническое название программ, помогающих пользователям в межсетевых взаимодействиях. Это могут быть браузеры, такие как Internet Explorer, Firefox или Opera или почтовые программы, такие как Outlook Express, Thunderbird или Qualcomm Eudora.

Что такое поисковая система?

Какие другие виды роботов существуют?

Существуют роботы для различных целей:

Индексация
Проверка HTML
Проверка ссылок
Проверка обновлений
Зеркалирование

Пауки
то же, что и роботы, но звучит гораздо круче, поэтому больше нравится журналистам

Черви
то же, что и роботы, но в отличие от обычных роботов, являются самовоспроизводящимися

Муравьи
распределённые (пример: комариная стая) , взаимодействующие между собой роботы

Не вредят ли поисковые роботы интернету?

Есть несколько причин, по которым люди считают, что роботы вредят интернету:

Некоторые реализации роботов могут (и такие случаи были) перегрузить сети и сервера. Это может произойти, когда робота пишет неопытный программист. В настоящее время в сети достаточно информации о создании роботов, чтобы избегать таких ошибок.
Роботами управляют люди, которые могут ошибиться в настройках, или попросту не подумать о последствиях своих действий. Это значит, что людям стоит быть осторожнее, а авторы роботов должны создавать программы таким образом, чтобы избежать такого рода ошибок.
Индексирующие роботы обычно складывают данные в централизированную базу данных, что не очень масштабируется на миллионы документов на миллионах сайтов

В то же время бОльшая часть роботов хорошо спроектирована, профессионально управляется, не создает никаких проблем и предоставляет прекрасный сервис, особенно учитывая отсутствие альтернативных решений.

Поэтому роботы по своей природе не плохие и не хорошие, и посему требуют внимательного к себе отношения.

Существуют ли книги о поисковых роботах?

Да. Для справки: если вы купите книгу по нижепреведенной ссылке, интернет-магазин заплатит автору robotstxt.org немного денег, которые пойдут на поддержание сайта. Книги преведены в алфавитном порядке.

Индексирующие роботы

Каким образом роботы выбирают, какую страницу индексировать?

Это зависит от робота – каждый использует свои критерии для выбора. В общем случае, они начинают с документов, с которых идет много ссылок – например, каталогов, новостных сайтов и наиболее популярных сайтов в сети.

Большинство поисковых систем позволяют добавлять URL вручную. После добавления они добавляются в очередь и через некоторое время индексируются.

Иногда используются иные источники URL, например рассылки USENET, опубликованные архивы e-mail рассылок и т.д.
Сейчас архивы USENET доступны на http://groups.google.com .

Как робот решает, что ему индексировать?

Если индексирующий робот знает о существовании документа, он может решить распарсить его (разобрать, как разбирают предложения) и добавить в базу. Сам процесс зависит от конкретного робота: некоторые роботы читают только Title документов, некоторые берут первые несколько параграфов, некоторые – берут весь документ, индексируют все слова с различным весом, в зависимости от html-разметки. Некоторые разбирают мета-теги или другие специальные скрытые теги.

Надеемся, что с развитием интернета, появится больше возможностей эффективно связать мета-данные документа с самим документом. Работа в этом направлении ведется.

Как мне добавить мой сайт для индексирования?

Это зависит от поисковой системы. Многие системы размещают ссылку на добавление сайта на странице поиска или в одном из разделов сайта. Например:

У Яндекса есть страница Добавить URL
У Google есть раздел Information for Webmasters
У Рамблера есть Форма регистрации сайта

Для администраторов

Как мне узнать, что на мой сайт заходил робот?

Вы можете проверить логи на предмет того, что за очень короткое время было запрошено множество документов.

Если ваш сервер заности в логе user-agent-ы, можете проверить в логах необычные user-agent-ы.

И наконец, если с сайта запрашивался файл «/robots.txt», вероятно, это был робот.

Ко мне на сайт заходил робот! Что мне делать?

Хмм, в принципе ничего:-). Суть в том, что они полностью автоматические. Вам не требуется ничего делать.

Если вам кажется, что вы нашли нового робота (т.е. он не указан в списке действующих роботов и он заходит с некоторой периодичностью, напишите мне, чтобы я мог внести его в список. Но пожалуйста, не пишите мне о каждом замеченном вами роботе!

Робот чересчур быстро забирает весь мой сайт!

Такие роботы называют «скорострельными», и пользователи, просматривающие лог-файлы, обычно их сразу замечают.

Прежде всего проверьте, действительно ли это проблема, измерив нагрузку на сервер и просмотрев журнал ошибок на предмет отказов в соединении. Если ваш сервер достаточно мощный, такие нагрузки не будут для него сколь-либо заметной проблемой.

Однако, если вы используете в качестве веб-сервера свой персональный компьютер или у вас медленное серверное ПО, или много долго формируемых документов (например, CGI-скрипты или просто очень большие документы), то такие проблемы проявляются в отказах в соединении, высоких нагрузках, замедлении работы или в самом худшем случае в отказах системы.

В таких случаях надо сделать несколько вещей. Глваное, начните записывать информацию – когда вы это заметили, что показывают логи, что вы сделали – это поможет позже разобраться в проблеме. Далее выясните, откуда пришел робот, какие у него IP и доменное имя, и посмотрите, указаны ли они в списке действующих роботов . Если вы таким образом определили что это за робот, вы можете написать e-mail ответственному за него человеку и спросить его, что происходит. Если это не поможет, поищите у них на сайте телефоны или напишите на адрес postmaster @ домен.

Если робот не указан в списке, пришлите мне собраную вами информацию, включая предпринятые вами действия. Даже я не смогу помочь, я напишу об этом роботе и тем самым предупрежу других пользователей.

Как мне заставить роботов держаться подальше от моего сайта?

Об этом в следующем разделе.

Стандарт исключения роботов

Почему у меня в логах появляются запросы файла robots.txt?

Это запросы от роботов, которые пробоуют получить инструкции для обработки сайта в соответствии со .

Если вы не хотите давать роботам никаких инструкций, и в то-же время хотите убрать эти сообщения из логов, попросту создайте в корне сайта пустой файл robots.txt.

Не стоит писать туда html или текст, типа «Кто там?» – вероятнее всего его никто никогда не прочтет:-).

Как запретить роботам индексировать мой сайт?

Самый простой способ – поместить в /robots.txt следующие строчки:

User-agent: *
Disallow: /

Более точечные ограничения задаются также просто.

Где мне узнать как работает файл /robots.txt?

Где я могу достать робота для себя?

Где я могу достать исходный код робота?

Смотрите предыдущий абзац – для некоторых общедоступных роботов может предоставляться исходный код.

Либо посмотрите libwww-perl5 – с ним идет небольшой пример.

Я пишу робота, на что мне стоит обратить особое внимание?

О, на многое. Для начала, прочитайте все материалы этого сайта, потом – отчеты с прошедших WWW-конференций, и спецификации HTML и HTTP..

Роботы поисковой системы, иногда их называют «пауки» или «кроулеры» (crawler) — это программные модули, занимающиеся поиском web-страниц. Как они работают? Что же они делают в действительности? Почему они важны?

Учитывая весь шум вокруг поисковой оптимизации и индексных баз данных поисковиков, вы, наверное думаете, что роботы должно быть великие и могущественные существа. Неправда. Роботы поисковика обладают лишь базовыми функциями, похожими на те, которыми обладали одни из первых броузеров, в отношении того, какую информацию они могут распознать на сайте. Как и ранние броузеры, роботы попросту не могут делать определенные вещи. Роботы не понимают фреймов, Flash анимаций, изображений или JavaScript. Они не могут зайти в разделы, защищенные паролем и не могут нажимать на все те кнопочки, которые есть на сайте. Они могут «заткнуться» в процессе индексирования динамических адресов URL и работать очень медленно, вплоть до остановки и безсилием над JavaScript-навигацией.

Как работают роботы поисковой машины?

Поисковые роботы стоит воспринимать, как программы автоматизированного получения данных, путешествующие по сети в поисках информации и ссылок на информацию.

Когда, зайдя на страницу «Submit a URL», вы регистрируете очередную web-страницу в поисковике — в очередь для просмотра сайтов роботом добавляется новый URL. Даже если вы не регистрируете страницу, множество роботов найдет ваш сайт, поскольку существуют ссылки из других сайтов, ссылающиеся на ваш. Вот одна из причин, почему важно строить ссылочную популярность и размещать ссылки на других тематических ресурсах.

Прийдя на ваш сайт, роботы сначала проверяют, есть ли файл robots.txt. Этот файл сообщает роботам, какие разделы вашего сайта не подлежат индексации. Обычно это могут быть директории, содержащие файлы, которыми робот не интересуется или ему не следовало бы знать.

Роботы хранят и собирают ссылки с каждой страницы, которую они посещают, а позже проходят по этим ссылкам на другие страницы. Вся всемирная сеть построена из ссылок. Начальная идея создания Интернет сети была в том, что бы была возможность перемещаться по ссылкам от одного места к другому. Вот так перемещаются и роботы.

«Остроумность» в отношении индексирования страниц в реальном режиме времени зависит от инженеров поисковых машин, которые изобрели методы, используемые для оценки информации, получаемой роботами поисковика. Будучи внедрена в базу данных поисковой машины, информация доступна пользователям, которые осуществляют поиск. Когда пользователь поисковой машины вводит поисковый запрос, производится ряд быстрых вычислений для уверенности в том, что выдается действительно правильный набор сайтов для наиболее релевантного ответа.

Вы можете просмотреть, какие страницы вашего сайта уже посетил поисковый робот, руководствуясь лог-файлами сервера, или результатами статистической обработки лог-файла. Идентифицируя роботов, вы увидите, когда они посетили ваш сайт, какие страницы и как часто. Некоторые роботы легко идентифицируются по своим именам, как Google’s «Googlebot». Другие более скрытые, как, например, Inktomi’s «Slurp». Другие роботы так же могут встречаться в логах и не исключено, что вы не сможете сразу их идентифицировать; некоторые из них могут даже оказаться броузерами, которыми управляют люди.

Помимо идентификации уникальных поисковых роботов и подсчета количества их визитов, статистика также может показать вам агрессивных, поглощающих ширину катала пропускания роботов или роботов, нежелательных для посещения вашего сайта.

Как они читают страницы вашего web-сайта?

Когда поисковой робот посещает страницу, он просматривает ее видимый текст, содержание различных тегов в исходном коде вашей страницы (title tag, meta tags, и т.д.), а так же гиперссылки на странице. Судя по словам ссылок, поисковая машина решает, о чем страница. Есть много факторов, используемых для вычисления ключевых моментов страницы «играющих роль». Каждая поисковая машина имеет свой собственный алгоритм для оценки и обработки информации. В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базу данных поисковой системы.

После этого, информация, доставленная в индексные базы данных поисковой системы, становится частью поисковика и процесса ранжирования в базе. Когда посетитель существляет запрос, поисковик просматривает всю базу данных для выдачи конечного списка, релевантного поисковому запросу.

Базы данных поисковых систем подвергаются тщательной обработке и приведению в соответствие. Если вы уже попали в базу данных, роботы будут навещать вас периодически для сбора любых изменений на страницах и уверенности в том, что обладают самой последней информацией. Количество посещений зависит от установок поисковой машины, которые могут варьироваться от ее вида и назначения.

Иногда поисковые роботы не в состоянии проиндексировать web-сайт. Если ваш сайт упал или на сайт идет большое количество посетителей, робот может быть безсилен в попытках его индексации. Когда такое происходит, сайт не может быть переиндексирован, что зависит от частоты его посещения роботом. В большинстве случаев, роботы, которые не смогли достичь ваших страниц, попытаются позже, в надежде на то, что ваш сайт в ближайшее время будет доступен.

Многие поисковые роботы не могут быть идентифицированы, когда вы просматриваете логи. Они могут посещать вас, но логи утверждают, что кто-то использует Microsoft броузер и т.д. Некоторые роботы идентифицируют себя использованием имени поисковика (googlebot) или его клона (Scooter = AltaVista).

В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базы данных поисковой машины.

Базы данных поисковых машин подвергаются модификации в различные сроки. Даже директории, имеющие вторичные поисковые результаты используют данные роботов как содержание своего web-сайта.

Собственно, роботы не используются поисковиками лишь для вышеизложенного. Существуют роботы, которые проверяют баз данных на наличие нового содержания, навещают старое содержимое базы, проверяют, не изменились ли ссылки, загружают целые сайты для просмотра и так далее.

По этой причине, чтение лог-файлов и слежение за выдачей поисковой системы помогает вам наблюдать за индексацией ваших проектов.

Некоторые роботы могут маскироваться под роботов Яндекса путем указания соответствующего User agent. Вы можете проверить, что робот является тем, за кого себя выдает используя идентификацию, основанную на обратных DNS запросах (reverse DNS lookup).

Для этого необходимо выполнить следующее:

Для интересующего User-agent определите IP-адрес по логам вашего сервера. Все роботы Яндекса представляются с помощью заданных User agent .

По полученному IP-адресу определите доменное имя хоста, используя обратный DNS запрос.

После определения имени хоста, Вы можете проверить, принадлежит ли он Яндексу. Имена всех роботов Яндекса заканчиваются на "yandex.ru", "yandex.net" или "yandex.com". Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.

Напоследок удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS запрос (forward DNS lookup), чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, использованным при обратном DNS запросе. Если IP-адреса не совпадают, это означает, что полученное имя хоста поддельное.

Роботы Яндекса в логах сервера

Вопросы и ответы

Как оградиться от мошеннических роботов, представляющихся роботами Яндекса

Если вы хотите оградиться от мошеннических роботов, представляющихся роботами Яндекса, Вы можете использовать фильтрацию, основанную на обратных DNS запросах . Такая схема более предпочтительна по сравнению с управлением доступом на основе IP-адресов, так как она устойчива к изменениям внутренних сетей Яндекса.

Объем трафика между моим веб-сервером и вашим роботом слишком большой. Существует ли поддержка скачивания страниц в сжатом виде?

Да, существует. Поисковый робот Яндекса при каждом запросе страницы говорит: «Accept-Encoding: gzip,deflate» . Это означает, что настроив соответствующим образом свой веб-сервер, вы сможете снизить объем передаваемого трафика между ним и нашим роботом. Однако следует иметь в виду - передача контента в сжатом виде увеличивает нагрузку на CPU вашего сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip и deflate , робот придерживается стандарта rfc2616 ,

Оценка статьи (5 / 1)

Просматривая логи сервера, иногда можно наблюдать чрезмерный интерес к сайтам со стороны поисковых роботов. Если боты полезные (например, индексирующие боты ПС) — остается лишь наблюдать, даже если увеличивается нагрузка на сервер. Но есть еще масса второстепенных роботов, доступ которых к сайту не обязателен. Для себя и для вас, дорогой читатель, я собрал информацию и переделал ее в удобную табличку.

Кто такие поисковые роботы

Поисковый бот , или как еще их называют, робот, краулер, паук — ни что иное, как программа, которая осуществляет поиск и сканирование содержимого сайтов, переходя по ссылкам на страницах. Поисковые роботы есть не только у поисковиков. Например, сервис Ahrefs использует пауков, чтобы улучшить данные по обратным ссылкам, Facebook осуществляет веб-скраппинг кода страниц для отображения репостов ссылок с заголовками, картинкой, описанием. Веб-скраппинг — это сбор информации с различных ресурсов.

Использование имен пауков в robots.txt

Как видим, любой серьезный проект, связанный с поиском контента, имеет своих пауков. И иногда остро стоит задача ограничить доступ некоторым паукам к сайту или его отдельным разделам. Это можно сделать через файл robots.txt в корневой директории сайта. Подробнее про настройку роботса я писал ранее, рекомендую ознакомиться.

Обратите внимание — файл robots.txt и его директивы могут быть проигнорированы поисковыми роботами. Директивы являются лишь рекомендациями для ботов.

Задать директиву для поискового робота можно, используя секцию — обращение к юзер-агенту этого робота. Секции для разных пауков разделяются одной пустой строкой.

User-agent: Googlebot Allow: /

User - agent : Googlebot

Allow : /

Выше приведен пример обращения к основному поисковому роботу Google.

Изначально я планировал добавить в таблицу записи о том, как идентифицируют себя поисковые боты в логах сервера. Но так как для SEO эти данные имеют мало значения и для каждого токена агента может быть несколько видов записей, было решено обойтись только названием ботов и их предназначением.

Поисковые роботы G o o g l e

User-agent	Функции
Googlebot	Основной краулер-индексатор страниц для ПК и оптимизированных для смартфонов
Mediapartners-Google	Робот рекламной сети AdSense
APIs-Google	Агент пользователя APIs-Google
AdsBot-Google	Проверяет качество рекламы на веб-страницах, предназначенных для ПК
AdsBot-Google-Mobile	Проверяет качество рекламы на веб-страницах, предназначенных для мобильных устройств
Googlebot-Image (Googlebot)	Индексирует изображения на страницах сайта
Googlebot-News (Googlebot)	Ищет страницы для добавления в Google Новости
Googlebot-Video (Googlebot)	Индексирует видеоматериалы
AdsBot-Google-Mobile-Apps	Проверяет качество рекламы в приложениях для устройств Android, работает по тем же принципам, что и обычный AdsBot

Поисковые роботы Я ндекс

User-agent	Функции
Yandex	При указании данного токена агента в robots.txt, обращение идет ко всем ботам Яндекса
YandexBot	Основной индексирующий робот
YandexDirect	Скачивает информацию о контенте сайтов-партнеров РСЯ
YandexImages	Индексирует изображения сайтов
YandexMetrika	Робот Яндекс.Метрики
YandexMobileBot	Скачивает документы для анализа на наличие верстки под мобильные устройства
YandexMedia	Робот, индексирующий мультимедийные данные
YandexNews	Индексатор Яндекс.Новостей
YandexPagechecker	Валидатор микроразметки
YandexMarket	Робот Яндекс.Маркета;
YandexCalenda	Робот Яндекс.Календаря
YandexDirectDyn	Генерирует динамические баннеры (Директ)
YaDirectFetcher	Скачивает страницы с рекламными объявлениями для проверки их доступности и уточнения тематики (РСЯ)
YandexAccessibilityBot	Cкачивает страницы для проверки их доступности пользователям
YandexScreenshotBot	Делает снимок (скриншот) страницы
YandexVideoParser	Паук сервиса Яндекс.Видео
YandexSearchShop	Скачивает YML-файлы каталогов товаров
YandexOntoDBAPI	Робот объектного ответа, скачивающий динамические данные

Другие популярные поисковые боты

User-agent	Функции
Baiduspider	Спайдер китайского поисковика Baidu
Cliqzbot	Робот анонимной поисковой системы Cliqz
AhrefsBot	Поисковый бот сервиса Ahrefs (ссылочный анализ)
Genieo	Робот сервиса Genieo
Bingbot	Краулер поисковой системы Bing
Slurp	Краулер поисковой системы Yahoo
DuckDuckBot	Веб-краулер ПС DuckDuckGo
facebot	Робот Facebook для веб-краулинга
WebAlta (WebAlta Crawler/2.0)	Поисковый краулер ПС WebAlta
BomboraBot	Сканирует страницы, задействованные в проекте Bombora
CCBot	Краулер на основе Nutch, который использует проект Apache Hadoop
MSNBot	Бот ПС MSN
Mail.Ru	Краулер поисковой системы Mail.Ru
ia_archiver	Скраппит данные для сервиса Alexa
Teoma	Бот сервиса Ask

Поисковых ботов очень много, я отобрал только самых популярных и известных. Если есть боты, с которыми вы сталкивались по причине агрессивного и настойчивого сканирования сайтов, прошу в комментариях указать это, я добавлю их также в таблицу.

маркетинга и сервисная программа торговли ссылками в Интернете, которая не имеет себе конкурентов по качеству, многофункциональности и характеристикам – Zeus – это лучшая программа Интернет маркетинга. ... Наш опциональный zSearch превращает Zeus в полноценную поисковую систему.

Он действует как робот поисковых машин (Googlebot, MSNBot, WISENutbot, Alexa, и др. ... Fast Link Checker игнорирует все Gopher, News and mailto: ссылки. ... Fast Link Checker поддерживает HTTP, HTTPS, и SOCKS прокси-сервера. ... В программе Fast Link Checker реализован многопотоковый алгоритм работы с файлами, это обеспечивает одновременную загрузку и проверку сразу нескольких страниц,...

Оптимизированный ASP сценарий обмена ссылками веб директории от Pro Data Doctor – это дружественная поисковая система и данный сценарий был разработан в соответствии с требованиями оптимизации SEO по поисковым системам. ... - Код поддерживает сохранение неограниченного количества обратных ссылок, что увеличивает ваш рейтинг в поисковых системах.

Включает персонального поискового робота для автоматического поиска тем в Интернете для вас. ... Распределяйте ваши знания, используя поискового бота. ... My SearchBot найдет вам все, что можно просмотреть, сохранить и потом распределить по папкам. ... Включая встроенный брандмауэр и программу безопасности – данная программа защитит вас от всех возможных угроз одним щелчком.

Функционал: статистика в реальном времени; 64 отчета (14 бесплатно); загрузки файлов; роботы ; статистика RSS-каналов; ссылки; поисковые фразы; сегментация аудитории сайта; метрика конверсии посетителей; страны, регионы, города, организации; метрика веб-сервера; многопользовательский режим; супер-компактная база данных; платформо-независимость; бесплатная версия; и многое другое.

Txt Generator: - Поддержка до 300 Роботов и Поисковых агентов. ... - Неограниченное количество комбинаций для управления Роботом . ... - WYSIWYG выборка исключения Роботов и файла/директории. ... - Автоматическая загрузка на web-сервер. ... - Неограниченное количество проектов и web-сайтов. ... - Документация в режиме онлайн или оффлайн.

С помощью IIS Mod-Rewrite Pro вы можете манипулировать URL на лету, создавать ваши собственные поисковые системы веб-сайта, делать перенаправления, блокировать определенные URL, блокировать раздражительные роботы и многое другое. ... Также программа выходит с богатой функцией панелью управления, которая включает онлайн обновления, возвраты версии, диагностику, тестер regex и множество других...

Web Log Suite также позволяет вам фильтровать посещения роботов поисковых систем. ... Данная программа будет предоставлять вам информацию о посетителях веб сайтов, статистику деятельности, статистику доступа к файлам, информацию о обращающихся страницах, поисковых системах, ошибках, странах посетителей, обращающихся веб сайтах, вы сможете получить информацию о поисковых словах и фразах и...