Поиск в сети Интернет
Поиск в сети Интернет

Поиск в сети Интернет В рекламе Интернета часто повторяются восторженные слова о том, что тамpicture можно найти любую информацию. Однако опытные обитатели Сети знают, что это далеко не так. Действительно, сегодня в Глобальной сети можно получить самые разнообразные сведения — от расписания авиарейсов и маршрутов движения транспор-та до прогнозов погоды и рецептов экзотических блюд. Но если по содержанию («кон-тенту») Сеть представляет собой буквально бездонный кладезь информации, то по способу организации — это, прошу прощения за грубое выражение, типичная помойка, где найти что-либо ценное представляется весьма проблематичным. Адреса Internet можно получить из различных источников. Это могут быть периодические издания, телевидение, радио, специализированные справочники и т.д. Но в этом как раз и состоит одна из главных проблем навигации в Internet. Не существует единого каталога, описы-вающего структуру сети и происходящие в ней изменения. Даже знаменитые "Желтые страницы Internet" содержат лишь несколько десятков тысяч адресов. А число компью-теров в сети ежедневно увеличивается. Кроме того, Internet просто перенасыщен информационным "мусором" – никому не нужными документами, покинутыми и не обновляемыми WWW-страницами.

За время существования Интернета предпринимались различные попытки орга-низации поисковых средств. Наиболее удачных проекты появились в последнее 2-3 года.

picture

Характер и качество предоставляемой поисковыми системами информации в зна-чительной степени зависят от способа сбора данных в сети. Например, некоторые поисковые системы собирают информацию в Internet автоматически, с помощью специальных программ-роботов, посещающих WWW-страницы. Такие электронные поисковые системы называют индексными. При поиске профессиональной, узкоспециа-лизированной информации эти системы приносят огромное количество "мусора", в котором достаточно долго приходится искать что-либо стоящее, а зачастую просмот-реть все эти ссылки просто невозможно. Например, в любой электронной поисковой машине зарегистрированы тысячи документов, которые она предоставит в ответ на ключевое слово "Педагогика". По этой причине в Сети существуют специальные серверы, называемые поисковыми каталогами, где собираются и систематизируются ссылки на наиболее важные и качественные ресурсы Сети. Обращение к ним, как правило, оказывается более эффективным. Обычно при поиске информации начинают с одного из каталогов, вводя в строку запроса наиболее общее понятие – одно или два слова, характеризующих предмет поиска, например – "Повышение квалификации". Через некоторое время в ответ будет доставлено небольшое количество страниц, в которых упомянута эта фраза. Если количество полученных страниц слишком велико, можно переформулировать или конкретизировать запрос, например: "Повышение квалификации руководящих работников образования". Если просмотр результата поиска и видоизменение запроса в каталоге не привели к желаемому результату, то переходят к поиску с помощью индексной поисковой машины.

picture

Для поиска можно воспользоваться многочисленными специализированными ин-струментами и средствами:

  • Индексными поисковыми системами (indexing engines)
  • Поисковыми каталогами (directories),
  • Метапоисковыми системами

Для понимания различия между индексными поисковыми системами и поиско-выми каталогами приведём пример книги. Чаще всего книга начинается с содержания и заканчивается алфавитным указателем. Несмотря на то, что они расположены в разных местах книги и выглядят совершенно по-разному, задача у них одна: помочь найти в книге нужный раздел. Содержание – это пример каталогизации. Алфавитный указатель – пример индексации. Читатель находит в указателе нужный термин и получает номер страницы, на которой он встречается. В Интернете каталоги и указатели различаются технологией подготовки. Над каталогами работают люди (модераторы), а поисковые индексные системы формируют базу данных автоматически.

Индексные поисковые системы (indexing engines)

pictureПоисковые системы состоят из трех основных частей:

  • 1. Робот (он же паук, червяк, гусеница, краулер, спайдер) - программа, которая по-сещает Web-страницы, считывает (индексирует) полностью или частично их со-держимое и следует далее по ссылкам, найденным на данной странице. Через определенные периоды времени (например, каждый месяц) робот возвращается и индексирует страницу снова. Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, иссле-дуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игно-рируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют ссылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать наиболее популярные страницы. Некоторые, например, индексируют каждое отдельное слово во встре-чающемся документе, в то время как другие индексируют только наиболее важ-ных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее.
  • База данных, которая содержит всю информацию, собираемую пауками.
  • 3. Третья часть - это программа, которая в соответствии с запросом пользователя перебирает индексы поисковой системы в поисках информации, интересующей пользователя, и выдает ему найденные документы в порядке убывания релевант-ности (т.е. соответствия запросу). Когда кто-либо хочет найти информацию,picture до-ступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут ис-пользоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым роботами при индексации информации, которую они нашли при перемещении по Сети. База данных отыс-кивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных.

Различные поисковые системы используют различные алгоритмы ранжирования (сортировки полученных результатов), однако основные принципы определения ранжирования следующие:

  • Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).
  • Тэги, в которых эти слова располагаются.
  • Местоположение искомых слов в документе.
  • Удельный вес слов, относительно которых определяется релевантность, в об-щем количестве слов документа.
  • Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существуетpicture довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.
  • Индекс цитируемости - как много ссылок на данную страницу <ведет с других страниц, зарегистрированных в базе поисковика.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят ссылки с первыми несколькими предложе-ниями, содержащимися в документе или заголовок документа вместе с ссылкой. Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

Приёмы поиска информации в индексированных поисковых системах

  • Простой поиск. При простом поиске в поле запроса вводится одно или несколько слов, которые могут характеризовать содержание документа. Если вводится несколько слов, то результат зависит от того, как эти слова введены, а это, в свою очередь, зависит от конкретной используемой системы. Приёмы простого поиска в разных поисковых системах, как правило, свои, и прежде чем ими пользоваться, желательно почитать инструкцию.
  • Расширенный поиск. Под ним подразумевается запрос из группы слов. При расширенном поиске большинстве случаев разрешается связывать ключевые слова логическими операторами. AND (И), OR (ИЛИ), NOT (НЕ) и другими. основное достоинство расширенного поиска состоит в том, что записи ключевых слов и логиче-ских операторов в разных системах либо одинаковы, либо очень похожи. Поэтому, усвоив один раз приёмы расширенного поиска, можно ими пользоваться где угодно. Поиск операторов в документе не производится, они служат лишь инструкцией pictureпоиско-вой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.
  • Контекстный поиск. Это очень полезный вид поиска, который реализован не во всех поисковых системах. Системы, которые его поддерживают, следует ценить особо. При контекстном поиске требуется точное совпадение фразы. При кон-текстном поиске ключевая фраза должна быть заключена в кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе. Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме.
  • Специальный поиск. С помощью команд специального поиска разыскивают дополнительную информацию. Например, такие команды позволяют определить, как часто в Сети встречаются гиперссылки, указывающие на какой-либо ресурс, с их помощью можно найти ключевые слова, входящие в заголовки Web-страниц и т.п. Как правило, команды специального поиска в различных поисковых системах свои.

Поисковые каталоги (directories)

Каталог, как правило, имеет иерархическую структуру, и все его ресурсы класси-фицированы по темам. Каталоги обычно разбиваются на тематические разделы, которые, в свою очередь, делятся на более мелкие т.д. В каталогах предусмотрен механизм поиска, который позволяет по ключевым словам найти ресурс, содержащийся в катало-ге. Здесь отбор информации производится гораздо жестче, нежели в поисковых маши-нах, поэтому соответствующие базы данных обычно во много раз меньше, но вероятность нахождения нужных сведений с их помощью значительно выше.

Поскольку регистрация в каталогах полностью зависит от людей - модераторов данной системы, то кроме ссылки на нужный ресурс скорее всего получают краткое описание его содержания. Впрочем, многие каталоги включают в себя и внутренние поисковые машины. Главная особенность каталогов состоит в том, что при обращении к ним, как правило, знаешь, что искать, и в итоге узнаешь лишь то, где расположено искомое, а поисковые серверы необходимы тогда, когда не знаешь ничего, кроме того, как называется искомое и к какой области относится.

picture

Пользователь ищет информацию в каталогах двумя способами:

  • переходя по иерархической системе подкаталогов
  • используя внутреннюю поисковую систему

Основные русскоязычные каталоги следующие:

Метапоисковые системы

Метапоисковые системы представляют собой программы, которые осуществляют поиск по многим поисковым системам.

Метапоисковые системы не содержат собственной базы данных — они произ-водят опрос нескольких внешних поисковых машин и в конечном итоге выдают пользо-вателю список ссылок.

Метапоисковые системы разделяются на два типа:

  • те, которые установлены на Web-серверах;
  • те, которые устанавливаются на компьютерах пользователя.
Google
picture

Google — крупнейшая поисковая система, принадлежащая корпорации Google Inc.

Первая по популярности (79.65 %)обрабатывает 41 млрд 345 млн запросов в месяц (доля рынка 62,4 %)индексирует более 25 миллиардов веб-страниц, может находить информацию на 191 языке

Поддерживает поиск в документах форматов PDF, RTF, PostScript, Microsoft Word, Microsoft Excel, Microsoft PowerPoint и других.

История создания

Поисковая система Google была создана в качестве учебного проекта студентов Стэнфордского университета Ларри Пейджа и Сергея Брина. Они в 1996 году работали над поисковой системой BackRub, а в 1998 году на её основе создали новую поисковую систему Google.

Хотя корпорация была основана 2 сентября 1998 года, а домен Google.com зарегистрирован 15 сентября 1997 года Google иногда отмечает свой день рождения и в другой день: как 7, так и 27 сентября.

Название Google произошло от намеренно искажённого Сергеем Брином слова Гугол (Googol), которое означает «десять в сотой степени».

Поисковые запросы

picture

Синтаксис запросов
Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д. Например, поиск «intitle:Google site:wikipedia.org» выведет все статьи Википедии на всех языках, в заголовке которых встречается слово Google. Мощный язык запросов в руках хакеров может быть использован для исследования веб-сайтов на уязвимости.

Поиск в найденном
Для результатов поиска Google ранее предоставлял возможность повторного поиска, что позволяло производить поиск более детально. Для более детального поиска пользователям необходимо было указывать дополнительные параметры по которым происходил отбор результатов, что позволяло сразу отобразить не только запрос, но и контекст где он применяется. Данная возможность упрощала процедуру поиска исключив необходимость в открытии каждого результата.

Википоиск
Поисковая технология, позволяющая пользователю настраивать результаты выдачи по поисковым запросам. Пользователь может удалять результаты из списка и поднимать вверх списка. Технология была запущена компанией Google весной 2009 года и проработала до осени. Другие поисковые системы подобной функциональности пока не предоставляли.

Голосовой поиск
2 сентября 2010 года компания запустила голосовой поиск в России. Чтобы осуществить поиск, необходимо нажать в телефоне кнопку рядом со строкой поиска и произнести свой запрос, телефон отправит ваш голос на сервер, и браузер выдаст строку с распознанным вашим запросом и результатами поиска по нему.

Google Doodle
По случаю праздника или круглой даты какой-нибудь широко известной личности, стандартный логотип Google у некоторых или, реже, — у всех региональных доменов может меняться на праздничный, имеющий определённую тематику, смысл, но в стиле Google. Например, по случаю дня рождения Наполеона Орды 11 февраля 2010 года на логотипе белорусского домена Google появились акварели этого известного художника, 6 июля поздравляли со 121- летием Марка Шагала (логотип был в виде коллажа из фрагментов его работ). После десятилетнего ожидания 22 марта 2011 года Google выиграл патент на «Google Doodle».

Yandex
picture

«Яндекс» — российская ИТ-компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является 5-ой среди поисковых сайтов мира по количеству обработанных поисковых запросов. Поисковиком в мире пользуются более 50 млн чел.[источник?] По состоянию на 12 апреля 2012 года, согласно рейтингу Alexa.com, по популярности сайт yandex.ru занимает 23-е место в мире и 1-е место в России.

Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания «Яндекс» образовался в 2000 году. В мае 2011 года Яндекс провёл первичное размещение акций, заработав на этом больше, чем какая-либо из Интернет-компаний со времён IPO поисковика Google в 2004 году.

Основным и приоритетным направлением компании является разработка поискового механизма, но за годы работы «Яндекс» стал мультипорталом. В 2011 году «Яндекс» предоставляет более 30 сервисов. Самыми популярными являются: Яндекс.Картинки, Яндекс.Почта, Яндекс.Карты, Яндекс.Новости, Яндекс.Погода и другие.

История

В 1988 году предприниматель и программист Аркадий Волож основал фирму CompTek, продававшую персональные компьютеры и занимавшуюся автоматизацией рабочих мест. Также Волож интересовался алгоритмами обработки данных, и его заинтересовала возможность написания приложения, которое могло бы осуществлять поиск информации в больших объёмах текста, учитывая морфологию языка. Совместно со специалистом по компьютерной лингвистике Аркадием Борковским он основал в 1989 году компанию «Аркадия». После 1990 года сотрудники «Аркадии» написали информационно-поисковые системы «Международная классификация изобретений» и «Классификатор товаров и услуг». В последующие три года они продавались НИИ и патентным организациям.

picture

Слово «Яndex» придумали Илья Сегалович, нынешний директор Яндекса по технологиям, и генеральный директор компании — Аркадий Волож. Илья выписывал разные производные от слов, описывающих суть технологии. В результате появился вариант «yandex». Теперь слово «яндекс» вошло в русский язык, миллионы людей употребляют его, когда говорят о поиске в интернете.

В 1993 году «Аркадию» присоединили к CompTek, в которую ранее пришёл школьный друг Воложа программист Илья Сегалович. В том же году была создана программа для поиска на жестком диске компьютера. Программу назвали «Yandex».

В 1995 году было принято решение об использовании поискового приложения для сети Интернет. Сначала оно работало с ограниченным числом ресурсов, а позже со всем русскоязычным сегментом Интернета

Язык поисковых запросов

Отличительная особенность Яндекса — возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов. Так, например, для операции исключения можно указать область действия: запрос A ~~ B найдёт документы (страницы), в которых присутствует А, но не присутствует В, а запрос А ~ Б — документы, где слово Б не присутствует со словом А в одном предложении. Аналогично, оператор & ищет сочетания ключевых слов в предложении, а && — во всём документе.

Оператор ! позволяет отключить морфологию для конкретного слова, а !! позволяет указать нормальную форму, что позволяет обойти некоторые проблемы, связанные с омонимией. Например запрос !!Иванов будет находить Иванова и Ивано?вых, но не Ивана.

Результаты поиска

По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов. Иногда порядок сайтов на этих страницах может отличаться, так как обновление баз для этих результатов происходит не одновременно.

Если по запросу найдено очень много ссылок, страница результатов предлагает ограничить диапазон поиска — по региону (то есть по диапазону IP) или по дате. Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов, иногда возникают забавные ситуации). Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.

Rambler
picture

Rambler Media Group — интернет-холдинг, включающий в качестве сервисов поисковую систему, рейтинг-классификатор ресурсов российского Интернета, информационный интернет-портал.

В качестве поисковой системы Рамблер использует технологию Яндекса, понимающую и различающую слова русского, английского и украинского языков. По умолчанию поиск ведётся по всем формам слова. По умолчанию в Рамблере результаты ранжируются по степени соответствия запросу и группируются по сайтам.

25 ноября 2009 года Rambler стал лауреатом конкурса «Премия Рунета» в номинации «Культура и массовые коммуникации».

История создания

Rambler создан в 1996 году. Создал русскоязычную поисковую систему, назвав её «Rambler» (в переводе с английского языка — «странник», «бродяга») — Дмитрий Крюков. В свой день рождения — 8 октября 1996 года — он разместил программу в сети.Дмитрий Крюков скончался 14 апреля 2009 года.

Деятельность

picture

Принадлежавшая Rambler’у телекомпания «Rambler Телесеть» в октябре 2006 года была также продана компании «Проф-Медиа».

20 июля 2007 года было объявлено о покупке 25% акций компании ЗАО «Бегун» у компании ООО «Инвестиционный холдинг Финам» (до 2005 года владела 100% «Бегуна»). По завершении сделки «Рамблер» получит контроль над «Бегуном» (50% + 1 акцию). Ранее «Rambler» уже владел 25% + 1 акцией. 49,9% акций «Бегуна» сохранятся у «Финама». Эта сделка обошлась «Рамблеру» в 18 млн долл. В июле 2008 года компания Google планировала купить 100% акций «Бегуна» за 140 млн долларов США, однако эта сделка была заблокирована ФАС.

23 июня 2011 г. объявлено о начале использования «Рамблером» «поисковых технологий» «Яндекса» и присоединении к рекламной сети «Яндекса»