Как работают поисковые системы

Поисковики используют определенный список операций, который позволяет им обеспечить релевантные результаты в выдаче.

1. Продвижение по сети

Поисковики используют автоматические программы, именуемые ботами или спайдерами, которые используют гипертекстовую структуру сети для прохождения по страницам и документам, которые составляют Всемирную паутину. Существует приблизительно 20 миллиардов страниц, поисковики изучили от 8 до 10 миллиардов.

2. Индексация документов

После прохождения странички ее контент может быть проиндексирован, то есть сохранен в огромнейшей базе данных документов, которая составляет “index” поисковой системы. Управление индексом должно производиться таким образом, что запросы, по которым производится поиск и сортировка миллиардов документов, должны быть обработаны за доли секунды.

 

3. Обработка запросов

Когда запрос на информацию поступает к поисковику (сотни миллионов каждый день), он извлекает из своего индекса все документы, которые соответствуют запросу. Соответствие определяется, если слова или фраза находятся на страничке в виде, определенном пользователем. Например, по запросу авто и журнал водителя в Google выводятся 8.25 миллионов результатов. Однако поиск той же фразы в кавычках приведет к выдаче только 166 тысяч результатов. В первой системе, которая именуется режим “Findall”, Google извлекает все документы, которые имеют слова “авто”, “водитель” и “журнал” (Google игнорирует слово “и”, поскольку ограничение результатов поиска не является эффективным). Во втором запросе “авто и журнал водителя” были выданы лишь странички, точно соответствующие набранному запросу. Другие поисковики могут иметь иные алгоритмы для выдачи соответствующих запросу результатов (У Google имеется список из 11 операторов).

4. Ранжирование результатов

После определения поисковиком результатов, соответствующих запросу алгоритм поиска (математическое уравнение, используемое для поиска) производит расчет по каждому результату поиска для определения наиболее релевантного запросу результата. Сортировка результатов выдачи производится в порядке убывания степени релевантности результатов запросу.

Хотя операции поисковиков не являются особенно длинными, поисковые системы, такие как Google, Yahoo!, AskJeeves и MSN являются одними из самых сложных компьютеров в мире. Они производят миллионы расчетов каждую секунду и обрабатывают информационные запросы огромных групп пользователей.