1.1 Появление и развитие поисковиков
Как известно, долгое время количество пользователей Интернета оставалось незначительным. Эта сеть изначально предназначалась для обмена данными между лабораториями и государственными структурами. Однако, после того, как Интернет стал «гражданским», количество пользователей и сайтов стало молниеносно увеличиваться.
Уже к началу 1990-х количество сайтов возросло настолько ,что появилась необходимость их классификации и налаживания связи между ними. Первым решением этой проблемы стал каталог Yahoo, который был запущен в 1994 году. Со временем количество сайтов, зарегистрированных в каталоге, значительно увеличилось и был введен внутренний поиск.
Однако, не в каталоге Yahoo были ссылки далеко не на все сайты тогдашнего Интернета. Чтобы обеспечить доступ к любому сайту сети, было решено создать инструмент для глобального поиска – WebCrawler (год рождения – 1994). С этого момента и начинается история поисковых систем.
Далее события развивались следующим образом:
1995 год. Запуск поисковиков Lycos и AltaVista (до появления Goggle эта система удерживала лидирующие позиции в мире)
1997 год. Появилась самая популярная не сегодняшний день поисквая система – Google, а 23 сентября и Рунет обзавелся собственным поисковиком («Яндекс»).
На сегодняшний день лидерами в сфере Интернет-поиска считаются Google, Yahoo и MSN Search. А в Росси первую позицию до сих пор удерживает «Яндекс».
1.2 Устройство поисковых систем
Каждая поисковая система состоит из ряда типовых программ, за каждой из которых закреплены определенные функции.
Spider – эта программа устроена аналогично стандартному Интернет-бразуеру и предназначена для скачивания веб-страниц. В отличие от пользовательских браузеров, паук не отображает графическую информацию и скачивает страницы в формате HTML-кода.
Crawler – отслеживает все ссылки на странице, загруженной пауком и определяет для него дальнейший маршрут – в каком порядке перемещаться по ссылкам. Crawler предназначается для поиска новых страниц, ещё не попавших в базу данных поисковой системы. Эта программа может работать по 2 алгоритмам: либо разрабатывать маршрут для паука автоматически, либо перемещаться по заранее сформированному списку адресов.
Indexer - программа предназначается для работы со скачанными страницами. Индексатор разделяет HTML-код на смысловые блоки (заголовки, текст, стили, служебные теги и пр.) и анализирует их.
Database – база данных или «индекс поисковой системы». Предназначается для хранения всех данных поисковой системы.
Search Engine (другое название – Results Engine) – занимается ранжированием результатов поиска. Эта программа автоматически определяет, какие из проиндексированных страниц удовлетворяют запросу пользователя. Для оптимизатора жизненно важно уметь найти общий язык с этой программой, чтобы повышать ранг продвигаемых ресурсов.
Web server – пользовательский интерфейс поисковой системы. Он, как правило, оформлен в виде поля ввода для поискового запроса. Эта же программа занимается формированием результатов поиска в виде веб-страницы.
Для оптимизатора очень важно знать, какие факторы позволяют повысить ранг страницы при её обработке Search Engine’ом. В следующей главе мы приведем краткий обзор некоторых факторов, влияющих на поисковое ранжирование.