Поисковые роботы кто они

[Поисковые роботы, кто они?]

Поисковые роботы – это особые программы, регулярно сканирующие содержание интернета. Тут надо сделать маленькую, но довольно значимую поправку – роботы сканируют лишь текст – только страницы на языках htm, html, shtml, xml. Остальные файлы (графика, музыка, видео, архивы) роботы не затрагивают. Зачастую, вместо слова «робот», применяют «поисковик» или «поисковая машина». Однако, это не правильно. Поисковую машину упрощённо можно представить в виде комплекса взаимосвязанных элементов, которые непременно имеют:
1. Поискового робота
2. Базу данных
3. Интерфейс для взаимодействия с пользователями (веб-ресурс)
Чтобы не путаться, из этого перечня намеренно убраны такие составляющие, как обработчик запросов, дополнительные сервисы, коими насыщен любой поисковик.
Интернет – это громадная сеть, которая несет большой объем информации, в которой, как-нибудь, но необходимо ориентироваться, иметь возможность отыскать в потребный момент нужные сведения. Для этого и существуют поисковики.
Дабы поисковик знал, где и что находится, ему необходимо заблаговременно изучить все сайты и внести их содержание в личную базу данных. Это-то и осуществляет поисковый робот. Потом, при запросе, поисковик анализирует собственную базу и выдаёт пользователю результаты.
Сдавалось бы, столько шумихи из-за того, что разок по сайту пройдётся робот и его перечитает. Но они просматривают ресурсы не один раз, и даже не два. Делают это они регулярно, потому как информация часто меняется, ресурсы вновь возникают, некоторые прекращают существовать, значит, в базу данных нужно постоянно заносить сведения обо всех изменениях, которые произошли. Иначе, через месяц результаты, выдаваемые на запрос, станут устаревшими, а стало быть, неудовлетворительными.
Просмотр роботом страницы зовется индексацией. Когда он изучил все страницы ресурса, говорят — такой сайт проиндексирован. Однако существует огромное число страниц в интернете, и как робот поспевает просматривать все?
Роботы программируются таким образом, чтобы посещать различные сайты с определенным интервалом. Когда сайт обновляется часто, то робот ходит туда раз на день, а то и чаще. «Миграция» между ресурсами проходит посредством ссылок. Когда робот просматривает ряд обновлений сайта, он находит новые ссылки на нем. Тогда робот или сразу идет по такой ссылке, или вносит её в «задания», возвратившись к ней несколько позже.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*

* Copy This Password *

* Type Or Paste Password Here *

4 510 Spam Comments Blocked so far by Spam Free Wordpress

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>