Как работает поиск?
Как работает поиск?
Система Google – совершенно потрясающая штука. Она повысила мой коэффициент умственного развития пунктов на двадцать, не меньше. Теперь я могу в мгновение ока отыскать нужную мне ссылку или цитату или за секунду выяснить, с каким человеком в данный момент общаешься и чем он известен. Вещь крайне полезная для тех, кому приходится иметь дело со множеством людей, – помогает не путаться в деталях.
Уэс Бойд, президент организации MoveOn.org(11)
Однажды компания Google заявила, что секрет потрясающей эффективности ее поисковика кроется в использовании обычных серых голубей, что на поверку оказалось очередной первоапрельской шуткой.
Подсчитано, что на протяжении 2007 года система Google обрабатывала за месяц 37 миллиардов запросов, тогда как Yahoo! – 8,5 миллиарда запросов, a Microsoft – 2,2 миллиарда. Сегодня абсолютное большинство людей для поиска информации обращается к Интернету, и зачастую по многу раз на дню. Тем не менее мало кто представляет себе, как работает поисковая машина.
В упрощенной форме алгоритм ее работы выглядит примерно так.
Шаг 1. Вводим слово или набор слов в строку поиска, и машина отыскивает их в созданной ею базе данных, устанавливая связь с ними. С самого начала Ларри и Сергей ставили цель сохранить в своей базе данных все странички Всемирной паутины. Компания и по сей день добивается этого, а также охватывает и множество других источников информации.
Шаг 2. Машина приступает к поиску, при этом поисковый движок использует три своих ключевых элемента. Вот они.
1. Так называемый «ползун» (crawl), который на самом деле никуда не ползет. Вместо того он рассылает на тысячи веб-страниц поисковый запрос по ключевым словам. Обычно его называют «пауком», потому что он постоянно сидит во Всемирной паутине.[6]
2. Индекс – огромная база данных, где хранятся и отыскиваются все слова.
3. Система обработки запросов, которая выдает пользователю их результаты.
Понятно, что приведенная грубая схема не объясняет, как именно работает уникальная поисковая технология Google. Это – ревностно охраняемая компанией профессиональная тайна. Правда, Ларри Пейдж, автор оригинальной идеи, все же дает нам кое-какие ключи для понимания сути.
Вскоре после того, как он обосновался в Стэнфорде, Ларри начал регулярно консультироваться по поводу своей докторской диссертации с научным руководителем Терри Виноградом, обсуждая направление исследований. «Мы остановились на изучении того, как действует система ссылок в Сети, – рассказывает Пейдж. – Задачу мы видели в том, чтобы собрать все ссылки и проанализировать их, а потом уже решать, нельзя ли найти этому какое-нибудь применение. В результате мы набрели на способ ранжировать вебстраницы по степени важности, отталкиваясь от количества ссылок на них, присутствующих на других страницах. И тогда поняли, что на основе этого принципа можно создать более эффективную систему поиска. Взяли и сделали это»(12).
На страничке Google можно найти более подробное объяснение:
Вместо того чтобы полагаться на помощь группы редакторов или на то, как часто слово появляется на вебстранице, Google ранжирует каждую веб-страниу с помощью PageRank… Революционная технология PageRank оценивает все сайты, связанные с данной веб-страницей, и присуждает им важность, частично основанную на сайтах, которые указывают на них. Посредством анализа всего содержания веб-страницы система Google способна определить, за какие сайты те, кто более всего интересовался данной информацией, «проголосовали» как за наиболее ценные источники, предлагающие эту информацию(13).
Как уже говорилось, программу, которая делает поисковую систему Google уникальной по сравнению со всеми остальными, Ларри назвал своим именем. Идея, лежащая в ее основе, аналогична той, которая действует в академических исследованиях. Суть в том, что значимость научной публикации определяется тем, сколько раз на нее ссылаются солидные академические издания. Чем чаще коллеги ссылаются в своих работах на данную публикацию, тем больше значимости и релевантности она приобретает.
А на корпоративной странице Google объяснено, каким образом этот процесс усложняется:
PageRank полагается на демократическую природу Сети, используя систему ссылок как индикатор ценности отдельной страницы. Вместо того чтобы подсчитывать прямые ссылки, PageRank рассматривает ссылку со страницы А на страницу Б как голос в пользу страницы Б от страницы А. Затем по количеству полученных голосов PageRank определяет значимость данной страницы. PageRank оценивает также важность каждой страницы, принимающей участие в голосовании. При получении голосов от страниц с большей значимостью ссылка становится более ценной. Поисковая система Google, как и другие системы, также анализирует содержание страницы, на которой расположена та или иная ссылка. Поисковый движок Google анализирует не только все содержание страницы <…> но и содержание соседних веб-страниц, чтобы убедиться в том, что полученные результаты наиболее точно соответствуют запросу пользователя(14).
Но и это всего лишь часть протокола. Как ни трудно это себе представить, но PageRank для объективной оценки значимости веб-страниц учитывает более 500 миллионов переменных и три миллиарда терминов и тем не менее умудряется выдать результат в доли секунды. И все же поисковый алгоритм в значительной степени упрощен.
Как отмечает профессор Стэнфордского университета и один из первых инвесторов в Google Раджив Мотвани, «как вы, между прочим, могли бы заметить, поисковая машина, в сущности, делает почти то же, что скромный библиотекарь, только более сознательно! В то же время автоматизированные программы поиска помогают нам угнаться за экспоненциально возрастающим объемом информации»(15).
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
ПОИСК П. Александровский
ПОИСК П. Александровский Из следственного изолятора капитану Петрову передали, что с ним просит встречи Фролов, чье дело недавно было закончено расследованием. По словам дежурного, заключенный хотел сообщить «своему» следователю сведения, которые заинтересуют органы
Глава 9 ПОИСК ОБЩАКА
Глава 9 ПОИСК ОБЩАКА 16 декабря 1994 годаСегодня Глеб немного успокоился, хотя вчера он здорово переволновался. Прежде всего – при самой перевозке денег Цирулю, особенно когда машина остановилась и к их «рафику» подошел Игнат.Тогда Глебу показалось, что сейчас тот начнет
Поиск «спонсоров» в Луангпхабанге
Поиск «спонсоров» в Луангпхабанге Белый джип принадлежал международной организации по борьбе с проказой. Сидевшие в нем лаосцы на первый взгляд на больных похожи не были. Только мужчина с перевязанным большим пальцем вызвал у меня подозрение.– Прокаженный?– Нет.
Глава 19 Поиск противника
Глава 19 Поиск противника Из пяти подводных лодок-носителей человеко-торпед, которые осуществляли атаки в районе о. Иводзима, две лодки погибли. В районе о. Окинава такая же судьба постигла две подводные лодки из четырех, принимавших участие в операции. А те лодки, которые
Почему принцип «Пусть клиент решает сам» не работает[29]
Почему принцип «Пусть клиент решает сам» не работает[29] Многие коммерческие организации, когда их обвиняют в сомнительной деятельности, защищаются словами: «Пусть клиент решает сам».Например, табачные компании таким образом защищают свое право продавать сигареты,
«Вы утверждаете, что у вас все могут участвовать в управлении. Если все управляют, кто же тогда работает?»
«Вы утверждаете, что у вас все могут участвовать в управлении. Если все управляют, кто же тогда работает?» — По-видимому, автор данного вопроса считает естественным и неизбежным деление общества на тех, кто работает, и на тех, кто управляет. Мы отвергаем такое «разделение
Поиск умной головы
Поиск умной головы Сказав однажды: «Гонзальез не тянет. Надо искать замену», Голембиовский время от времени стал возвращаться к этой теме — в доверительных разговорах в узком кругу и в разных мягких словосочетаниях, щадящих вице-президента по экономике. Типа: «Эдик
Поиск продолжается
Поиск продолжается Вечером 14 февраля президиум Совета рабочих, солдатских и крестьянских депутатов Москвы и Московской губернии вторично обсуждал вопрос о мерах по розыску похищенных сокровищ. Принятое по докладу члена Совета Малиновского постановление было
ГЛАВА 7 И ВСЁ-ТАКИ «ТАЙНА» КАК БУДТО БЫ РАБОТАЕТ
ГЛАВА 7 И ВСЁ-ТАКИ «ТАЙНА» КАК БУДТО БЫ РАБОТАЕТ Удовольствие может опираться на иллюзии, но для счастья нужен более реальный фундамент. Себастьян-Рош Никола Де Шамфор Имея дело с такой фантасмагорической теорией, как представленная в «Тайне», совершенно естественно
ГЛАВА 13 ДОКАЖИТЕ, ЧТО «ТАЙНА» РАБОТАЕТ, И ПОЛУЧИТЕ МИЛЛИОН
ГЛАВА 13 ДОКАЖИТЕ, ЧТО «ТАЙНА» РАБОТАЕТ, И ПОЛУЧИТЕ МИЛЛИОН Это наука абсолютно осуществимая и легко проверяемая. Джо Витале о законе притяжения Можно обманывать нескольких человек всю жизнь. Можно обманывать весь мир какое-то время. Но нельзя обманывать весь мир всю
Социальный поиск
Социальный поиск «Здесь, в Силиконовой долине, практически все стали использовать Facebook как поисковую машину. Конечно, это делает мальчиков из Google жутко нервными», — рассказал мне австриец Роман Шарф. В свое время он основал ресурс Jajah, а сейчас работает над новым
25. Кто работает в редакции?
25. Кто работает в редакции? Редакция – первое и самое главное слово, которое слышит любой появляющийся на медийный свет неокрепший новорожденный журналист. На радио, по сравнению с газетой, особенно заметно, что каким бы ты ни был профи высокого класса, без озвучки,
Лау Джанет
Просмотр ограничен
Смотрите доступные для ознакомления главы 👉