Поиск

История поисковых систем

1945 год - идея гипертекста и увеличения памяти

Идея гипертекста и увеличения памяти серьезно начала обсуждаться в июле 1945 года, когда была опубликована статья Ваннавера Буша Как мы можем думать в The Atlantic Monthly. Это произошло сразу после войны, на волне единения, которое тогда царило в научных кругах.

Ваннавер призывал ученых объединить свои усилия и создать единую базу знаний ради всего человечества. Ниже представлены основные тезисы его статьи:

Специализация становится все более необходимой для прогресса, попытки связать различные дисциплины становятся все более поверхностными.

Проблема заключается не в том, что появляется слишком много публикаций по самым разнообразным темам, а в том, что количество публикаций увеличивается со значительно большей скоростью, чем мы способны обработать и применить. Совокупность нашего опыта и знаний увеличивается чудовищными темпами, а средства, которыми мы пользуемся для нахождения нужной информации, напоминают те, которыми пользовались во времена парусных судов.

Любая информация, если она представляет ценность для науки, должна постоянно пополняться, она должна где-то сохраняться, и, прежде всего, она должна обсуждаться.

Наша неспособность эффективно работать с информацией проистекает из-за того, что системы, которыми мы пользуемся для обозначения этой информации (индексации), слишком искусственны: после того, как мы найдем первую часть информации, нам нужно проходить всю цепочку запросов снова, для того чтобы найти вторую часть.

Человеческий разум работает по-другому, он работает по принципу ассоциативной связи... Было бы глупо надеяться воспроизвести этот механизм искусственно полностью, но он может нас многому научить. Минимум, который можно из него извлечь, - это улучшение существующей системы.

Возможно, нам бы удалось приблизиться к пониманиманию человека, если бы нам удалось проанализировать его темное прошлое и настоящие проблемы более полно и объективно. Человечество построило настолько сложную цивилизацию, что логическим продолжением этого эксперимента было бы большая механизация областей связанных с хранением и работой с информацией.

Ваннавер считал, что если информация представляет ценность для человека, то она должна представляться в таком виде, в каком это будет максимально удобно для него. Он также предложил идею системы для хранения и предоставления информации виртуально безграничной, быстрой, надежной, расширяемой и построенной на принципе ассоциативной связи.

Гипертекст и поисковые технологии с 1960 по 1990

Гипертекст придумал в 1963 году Тэд Нельсон, который в 1960 году основал проект Xanadu. Целью проекта Xanadu, было создание компьютерной сети с простым пользовательским интерфейсом, который бы решил многие социальные проблемы, такие, например, как атрибуция. Хотя Тэд и был против сложного кода разметки, неработающих ссылок, и кучи других вопросов, связанных с HTML в его применении к WWW, именно его работа некоторым образом вдохновила идею и создание WWW. До сих пор непонятно, почему проект Xanadu потерпел неудачу, так как он так и не был никогда запущен.

Отцом современных поисковых технологий был Герард Салтон. Под его руководством в Гарварде и Корнеле была разработана система работы с информацией под названием SMART (Salton's Magic Automatic Retriever of Text). Волшебная автоматическая система по обработке текста Салтона включала в себя такие важные концепты как векторная модель, обратная частота документа, частота употребления (слова), параметры веса слова, механизмы обратной связи о релевантности результатов. Он также является автором 56-страничной книги "Теория индексации", в которой рассказывает о большинстве своих экспериментов, и на положениях которой до сих пор строится работа большинства поисковых систем.

Первые поисковые системы: Арчи, Veronica и Jughead

Первые сайты начали появляться в 1993 году, в большинстве это были сайты университетов, но задолго до того как появились они, появился Арчи - первый созданный поисковик. Он появился в 1990 году, благодаря Алану Эмтагу, студенту уничерситета МакГила в Монреале. Вначале проект хотели назвать Архивы, но потом сократили до Арчи.

Арчи помог решить проблему поиска разбросанной по всей сети информации, комбинируя основанный на скрипте механизм сбора и выдачи данных по запросу, основываясь на совпадении в названиях файлов с поисковыми запросами. Арчи превратился в базу данных документов, в которой и производился поиск по запросам пользователей.

Арчи стал настолько популярным, что группа System Computing Services при университете Невады создала Veronica, которая служила тем же целям, что и Арчи, но осуществляла поиск по текстам документов в простом текстовом формате. Вскоре появился еще одна система для поиска информации - Jughead, аналогичная Veronica. Они оба работали с документами, пересылаемыми через Gopher, который был создан как альтернатива Арчи Марком МакКахилом в университете Миннесоты в 1991 году

File Transfer Protocol (FTP) и World Wide Web (WWW)

Тим Берненс-Ли - создатель интернета и автор книги Плетя паутину - в 1989 году, работая в Европейском совете по ядерным исследованиям (Conseil Europeen pour la Recherche Nucleaire, CERN), увидел возможность связать гипертекст и интернет: "Мне всего лишь пришлось взять идею гипертекста и связать ее с идеями TCP и DNS и - да-да! - появилась Всемирная Сеть!"

Берненс-Ли создал первый в мире веб-браузер и одновременно редактор под названием WorldWideWeb и разработанный с помощью NeXTSTEP, а также первый веб-сервер под названием httpd, что является сокращенным названием от for HyperText Transfer Protocol daemon.

Первым сайтом Сети был http://info.cern.ch/, который появился в онлайне 6 августа 1991 года. На нем была размещена информация о том, что такое всемирная паутина, как можно получить браузер и как установить веб сервер. Этот сайт является также первой директорией, так как Бернерс-Ли позднее стал размещать там ссылки на другие сайты.

В 1994 году Тим Бернерс-Ли основал Консорциум Всемирной Паутины (World Wide Web Consortium) в Массачусетском технологическом интституте. Тим создал виртуальную библиотеку, которая является старейшим каталогом сети.

Ну и конечно, создание File Transfer Protocol (FTP) не обошлось без Тима Бернерса-Ли. Хотя на момент его создания Всемирной Паутины еще не было. Если у Вас был файл, которым Вам хотелось поделиться с другими, нужно было установить FTP сервер. Если кому-либо нужно было скачать этот файл, он использовал FTP клиент. Это было достаточно эффективно в небольших группах, но чем больше информации накапливалось, тем более фрагментарной она становилась.

Состав и принцип работы поисковой системы, типы поисковых запросов

Поисковые системы состоят из трех основных частей. Поисковые пауки идут по ссылкам, для того чтобы посетить страницы, которые еще не были проиндексированы или обновились со времени последнего посещения. Эти страницы, после прохода по ним бота индексируются и добавляются в индекс. Когда Вы ищете информацию, используя одну из основных поисковых систем, Вы на самом деле ищете не во всей сети, а в индексе контента, который достаточно грубо и часто с опозданием предоставляет Вам содержание сети. Третьей частью поисковой системы является поисковый интерфейс и программа определения релевантности. Для каждого поискового запроса поисковые системы, как правило, выполняют следующую последовательность действий:

Принимают поисковый запрос и проверяют его на содержание специфических команд, а также проверяют его на ошибки и в случае обнаружения последних предлагают правильный или более популярный запрос

Проверяют, соответствует ли запрос вертикальным поисковым базам данных (поиск по новостям или продуктам) и в случае совпадения, располагают вертикальные результаты рядом с основными.

Собирают список страницы из органического поиска. Эти результаты располагаются в зависимости от содержания страницы, а также от показателя индекса цитирования.

Запрашивают список соответствующих рекламных объявлений, для того чтобы расположить его рядом с результатами.

Андрей Бродер, автор Таксономии поиска в сети, утверждает, что большинство поисковых запросов, условно, можно разделить на три категории:

информационные - поиск информации по определенной теме;
транзакционные - совершение покупок, скачивание файлов, или какое-либо другие взаимодействие с результатами поиска;
навигационные - запрос на конкретный URL.

Большинство поисковых систем предлагают расширенную форма поиска (с помощью нее можно задавать формат поиска) и вертикальный поиск по базам данных (искать более структурировано или в случае ограничения поиска среди надежных документов).

Поисковые системы современного стандарта: WebCrawler, Lycos, Infoseek, AltaVista, Inktomi

Большинство поисковых систем используют в сокращенном виде участие редакторов для оценки сайтов, но в основном они полагаются на входящие ссылки на сайт для его оценки. На самом деле некоторые алгоритмы настолько полагаются на ссылки, что совсем ограничивают участие редакторов. Таким образом, некоторые из поисковиков используют в своем алгоритме входящие ссылки как голоса редакторов в пользу того или иного сайта. Веб-директории же составляются вручную, а не с помощью алгоритмов. Директории гораздо более дорогое удовольствие из-за постоянной необходимости участия редакторов для создания списков сайтов и их поддержки.

Брайан Пинкертон из университета Вашингтон выпустил WebCrawler 20 апреля 1994. Это был первый бот, который индексировал страницы полностью. Вскоре он стал таким популярным, что в дневное время к нему нельзя было достучаться. В это время AOL купил его и использовал в своей сети. Затем в 1997, Excite выкупил WebCrawler, а AOL начал использовать Excite, для того чтобы улучшить свой NetFind. WebCrawler стал первым из серии подобных сервисов. В течение одного года вслед за ним открылись Lycos, Infoseek и OpenText.

Lycos был следующей серьезной разработкой в технологии поиска, созданной в университете Карнеги Мелон в июле 1994. Майкл Малдин был ответственен за этот поисковик и по сей день остается ведущим специалистом в Lycos Inc. 20 июля 1994 года Lycos открылся с каталогом в 54,000 документов. И в дополнение к этому результаты, которые он предоставлял, были еще ранжированными, а также он учитывал приставки и приблизительное совпадение. Но главным отличием Lycos был постоянно пополняемый каталог: к ноябрю 1996 было проиндексировано 60 миллионов документов - больше, чем у любой другой поисковой системы того времени.

Infoseek также был основан в 1994, в январе. Он не были по-настоящему инновационным, но нем был ряд полезных дополнений. Одним из таких популярных дополнений была возможность добавления своей страницы в реальном времени.

AltaVista запустилась в том же месяце и привнесла в поиск многое из того, что после нее стало своего рода стандартом. У нее была практически неограниченная на то время пропускная способность, она была первой поисковой системой, в которой было возможно формулировать запросы на естественном языке, а также формулировать сложные запросы. Пользователям было разрешено добавлять или удалять их собственные URL в течение 24 часов. Они даже позволяли посмотреть количество входящих ссылок. AltaVista также предлагала много советов и рекомендаций по поиску. Увы, вследствие боязни манипулирования результатами и портальной ориентированности AltaVista утратила часть своей популярности, а к тому моменту стали набирать популярность Google и Inktomi. Это привело к тому, что 18 февраля 2003 года Overture выразила намерение купить AltaVista за 80 миллионов акциями и 60 миллионов наличными.

Корпорация Inktomi появилась 20 мая 1996 вместе со своим поисковиком Hotbot. Его создателями были две команды из калифорнийского университета. Когда сайт появился, то он быстро стал популярным. В октябре 2001 Дэнни Салливан написал статью под названием "База данных спам сайтов Inktomi открыта для публичного пользования", в которой рассказывалось о том, как Inktomi случайно сделал свою базу данных спам сайтов, которая к тому времени насчитывала уже около 1 миллиона URL, доступной для всеобщего использования. Хотя Inktomi были пионерами в области платного включения, эта бизнес-модель не была настолько эффективна как оплата за клик у Overture. Они не смогли изобрести прибыльной бизнес-модели и поэтому в декабре 2003 года продались Yahoo! за приблизительно $235 миллионов.

Вертикальный поиск

Вертикальный поиск - это специальные виды поиска, например, в новостях, картинках, видео, аудио и др. форматах и типах данных. Основные поисковики обычно борются также и за долю рынка в вертикальном поиске независимо от основного поискового продукта. У Google была подобная услуга с тем отличием, что те, кто отвечают, получают деньги за свою работу.

Основные поисковые системы предоставляют услуги поиска по новостям. Yahoo заключил соглашения с несколькими крупными провайдерами новостей, чтобы их новости включались в результаты поиска для пользователей Yahoo. Google стал партнером с AP и другими новостными провайдерами для того, чтобы расширить поиск по новостям на 200 лет назад. Topix.net - еще один популярный новостной источник, который 75% акций продал трем крупным компаниям, которые выпускают популярные газеты. Тысячи блогов ежедневно обновляются, многие из них конкурируют с серьезными новостными источниками и зачастую побеждают в этой борьбе. Google также ведет программу научного поиска, целью которой является упрощение проведения научных исследований.

1 ноября 2005 года Google запустил Google Base, который является базой данных чего угодно. Пользователи могут загружать файлы, описывать их и давать им название, а также назначать им тэги. Основываясь на этом, Google надеется понять, какие из вертикальных направлений им будет наиболее выгодно развивать. Они считают, что если бы в их распоряжении находились другие вертикали, то это позволило бы им привлечь больше трафика к их базовому сервису. Кроме того, они считают, что контекстная реклама, основанная на интересах пользователя, может быть прибыльной и в других областях. Например, Google купил dMarc, компанию, которая занимается размещением объявления на радио. Yahoo также попытались расширить свое присутствие на рынке за счет покупки таких популярных проектов, как Flickr - сервис для хранения фотографий.