Поисковые машины

Все поисковые машины, предназначенные для сети Интернет, имеют более или менее схожие принципы работы. Компактные копии документов, известных серверам поисковых систем, хранятся на локальном диске. Каждая из "искалок" опрашивает свой внутренний каталог по ключевым словам или фразам, которые Вы указываете при определении сценария поиска. Различие состоит лишь в объёме просматриваемой информации и алгоритме поиска, плюс, в наличии дополнительных сервисов (например, встроенных тематических каталогов). Невероятно распространено заблуждение, что во время поиска по Вашему запросу избранная "искалка" обходит миллионы известных ей адресов и сверяет соответствие ключевых слов содержимому "свежих" гипертекстов. Не так! Поиск ведется в базе локальной машины, а в ответ на Ваш запрос выдаются подходящие адреса во всех концах Паутины. Безусловно, поисковая машина ведёт постоянный опрос узловых адресов в Сети, пополняя собственную базу данных. Однако, не огорчайтесь, если любимая поисковая машина не обнаружила свежей информации, о существовании которой Вам достоверно известно, или выдала устаревший несуществующий адрес. Ведь, если бы "искалка" при каждом запросе опрашивала всю Сеть, боюсь, Вы никогда бы не получили результата поиска. В значительной степени, доступность документа для поисковой системы зависит от его автора. В его власти использовать в гипертексте наиболее запрашиваемые ключевые слова и разместить документ на доступном для основных поисковых машин сервере.
Поскольку поисковые машины существуют в Интернете, в основном, за счёт публикуемой рекламы, как правило, самые популярные системы поиска могут предоставить Вам наилучшие возможности. Для рядового юзера услуги поисковых серверов, как правило, предоставляются бесплатно. Достаточно лишь указать адрес поисковой системы в рабочей строке браузера или обратиться к ней через каталог закладок.
В данном разделе Вы прочитаете о некоторых наиболее известных международных поисковых системах, а также о ряде российских и израильских поисковых машин. Более полный список адресов поисковых систем (Search Engines) Вы сможете найти в Главе 6 "Мои закладки", раздел "Поиск в Интернете" (Search in Internet).


Yahoo!



Рис.3.1. Рабочее окно Yahoo!

Американский поисковый сервер (рис.3.1). Первая публикация в Сети: апрель 1994 года. Разработчики Дэвид Фило (David Filo) и Джерри Янг (Jerry Yang), Стенфордский Университет (США).
Имя "Yahoo!" можно перевести как "ура!" или как аббревиатуру "Yet Another Hierarchical Officious Oracle" (в свою очередь переводимую, например, как "иная иерархия назойливой истины"). Тем, кому особо интересна этимология слова "yahoo", рекомендую перечитать Джонатана Свифта "Путешествие Гулливера" на языке оригинала. Сами разработчики, поясняя происхождение имени своего любимца, отсылают нас к истории древней японской борьбы сумо. В современном английском языке этим словом иногда именуют существо со скверным или просто грубым характером.
Не смотря на довольно странное название (или благодаря именно ему), до сегодняшнего дня Yahoo остаётся безусловным лидером по популярности среди поисковых систем Интернета. Основным достоинством, по моему мнению, является наличие встроенного многоступенчатого тематического каталога (рис.3.2), опрашивающего крупнейшую в Сети базу данных. Недаром среди персональных закладок многих пользователей можно обнаружить ссылки на подразделы каталога Yahoo. При опросе поисковая машина Yahoo обращается не только к собственному списку сетевых ресурсов, но и к серверам поисковой машины Alta Vista. Среди существенных недостатков Yahoo  можно отметить игнорирование многих российских и израильских серверов, плюс, обилие устаревших ссылок.



Рис.3.2. Тематический каталог Yahoo!

Интерфейс поисковой системы Yahoo постоянно модифицируется и усовершенствуется, зона поиска всё время расширяется. Возникают новые версии поисковой машины для людей различных возрастов. Создано множество национальных Yahoo-серверов. Печатается даже специальный журнал как в виртуальной, так и в глянцево-бумажной версиях. Однако основные методы поиска остаются неизменными: Вы или шаг за шагом уточняете область поиска, следуя указателям тематического каталога, или вписываете ключевые слова по стандартной схеме, указанной ниже.
Для полноценного поиска по ключевым словам необходимо выбрать меню Options (Возможности). После клика в данном меню перед Вами возникает поисковое окно (рис.3.3), в котором Вы можете выбрать ареал поиска: по ресурсам Web (Yahoo!), среди групп новостей (Usenet) или по электронному адресу (E-mail addresses). 



Рис.3.3. Поисковое окно Yahoo!

Вы можете определить и само исследуемое пространство: внутренний каталог Yahoo (Yahoo Categories) или Мировую Паутину (Web Sites). Поиск по внутреннему каталогу будет сильно ограничен. Так, например, по ключевому слову "israel" внутри каталога Yahoo мною было найдено около 30 сообщений, в то время, как по всемирному поиску - свыше 1500. Однако, по умолчанию, поиск ведётся по внутреннему каталогу, вероятно, для того чтобы не утомлять неквалифицированного пользователя лишней информацией.
Кроме всего прочего Вы можете запросить отображать среди результатов поиска информацию за определённый промежуток времени и установить порционность выводимых сообщений.
Вам также предоставляется возможность выбрать метод поиска:
1)  "разумный" поиск (Intelligent default),
2)  по точному соответствию фразы (An exact phrase match),
3)  по соответствию всех слов (Matches on all words (AND)),
4)  по соответствию одного из слов (Matches on any word (OR)),
5)  по имени человека (A person's name).
Наибольшие затруднения, как правило, представляет "разумный" поиск. Поэтому уделим этому методу особое внимание. Необходимо уяснить лишь десяток несложных правил:
1)  для начала поиска, после указания ключевого слова (на английском языке) необходимо нажать на меню Search (Поиск) или на клавишу Enter (Ввести) на клавиатуре,
2)  если поиск ведётся по одному ключевому слову, пробел после слова ставится лишь в том случае, если Вы желаете исключить из вероятного списка те документы, в которых к ключевому слову примыкают дополнительные знаки (например, знаки препинания),
3)  при поиске по соответствию хотя бы одного из перечисленных слов достаточно отделить слова пробелами (например, best provider),
4)  при поиске по соответствию всех слов необходимо перед вторым, третьим и т.д. словами поставить знак "+" (например, best +provider),
5)  при необходимости исключить из общего списка документы содержащие некое слово, нужно использовать знак "-" (например, best -provider),
6)  при поиске фразы рекомендуется использовать кавычки (например, "best provider"),
7)  если Вы ищете слово, начинающееся с заглавной буквы, - возьмите его в кавычки (например, "Provider"),
8)  для поиска по известному заголовку можно использовать дополнительный ключ "t:" (например, t:best),
9)   для поиска слова среди доменных имён (URL) желательно указать дополнительный ключ "u:" (например, u:best),
10)  если Вы сомневаетесь в правильности написания того или иного слова, - используйте значок "*" (например, pr*v*der).
Вы спросите меня: "И это всё?" Я отвечу: "Нет. Но хватит надолго."
Одно несомненно: разобравшись со спецификой поиска в одной системе, Вы без труда освоите любую другую поисковую машину.


AltaVista



Рис.3.4. Рабочее окно AltaVista

Лидер проката 1995-96 годов. Была выпестована в лабораториях одной из крупнейших компьютерных компаний Digital Equipment Corporation (DEC). В вольном переводе с итальяно-американского сленга имя AltaVista звучит, как "там-за-горизонтом". С первых дней своего существования эта поисковая система была заявлена как безусловно наилучшая: использующая все безграничные ресурсы Web и позволяющая достичь максимальных скоростей поиска.
AltaVista представляет настоящий интерес для высокопродуктивного поиска  (www.altavista.com) (рис.3.4). 25 языков - не шутка! Среди них и иврит, и русский. Поиск может вестись как на просторах Web, так и среди Usenet. Существуют простой и усложнённый методы поиска. Боюсь, что именно усложнённость нестандартной поисковой процедуры привела к потере былой популярности AltaVista. Данная поисковая машина не предлагает Вам "прокатиться" по тематическому каталогу. Вы можете использовать стандартные процедуры поиска, уже описанные для системы Yahoo, и не морочить себе голову дополнительной информацией, или изучить дополнительные команды (недаром AltaVista славится самой длинной командной строкой).
По сути, к уже знакомым операциям добавляются несколько логических и синтаксических операций. Некоторые из них дублируют более простые (но, поговаривают, - менее надёжные) операции. Лично мне удобство поиска представляется более важным параметром, нежели мнимая надёжность. Тем более, что уже привычные значки (пробел, "+" и "-") работают в AltaVista замечательно, а многие новшества не работают вовсе. Тем, кого интересует полный список операций поиска в AltaVista советую просто кликнуть на значок Help (Помощь) в основном окне поисковой системы.


Excite



Рис.3.5. Рабочее окно Excite

Название этого поискового механизма имеет неоднозначный перевод с английского: на слух "экс-сайт" может быть воспринято как "terra incognita" (неведомое пространство) Интернета, с другой стороны, точный перевод таков - "возбудись!". За время жизни в Паутине с октября 1995 года, завоевал немалую популярность за счёт совершенно нового подхода к алгоритму поиска. Шесть парней (из всё того же Стенфордского Университета) решили максимально упростить поисковую процедуру, доверив основные логические операции собственному компьютеру. Пользователю достаточно грамотно набрать произвольную ключевую фразу по-английски и нажать на кнопку "Search" (рис.3.5).
Далее поисковая машина Excite, полагаясь лишь на собственный интеллект, отыскивает Вам необходимую информацию. Она сама разбирается с путаницей слов: синонимов и омонимов, контекстов и скрытых смыслов. При выдаче результатов поиска Excite сопровождает их комментариями о точности совпадения с начальным запросом (до 100%). Однако, если подобная концепция поиска Вас не удовлетворяет, можно воспользоваться обычной схемой поиска по ключевым словам.
Показательно, что за последний год Excite очень сильно изменил пользовательский интерфейс: появился прекрасный тематический каталог, предоставлена возможность обращения к локальным серверам Excite в странах Европы, при обращении к ссылке Power Search (Усиленный Поиск) Вы с удивлением обнаруживаете, что по умолчанию теперь предлагается поиск по ключевым словам, а не по фразам. Вероятно, алгоритм концептуального поиска, долгое время скрываемый от пользователей и конкурентов, не до конца оправдал себя. Тем не менее, при поиске научных статей по заранее известному названию или заголовку, я чаще всего прибегаю именно к этой поисковой машине.


HotBot



Рис.3.6. Рабочее окно HotBot

Зелёный плод любви программисткой компании Inktomi и мультимедийного интерактивного журнала HotWired. Основной идеей системы HotBot (рис.3.6) является достижение максимального удобства при поиске информации за счёт изначального определения ареала и метода поиска (рис.3.7). На этапе подготовки к поиску Вы можете определить временной промежуток для искомой информации (от недели до двух лет со дня опубликования в Сети), континент и тип домена, установить режим вывода результатов поиска и многое другое. Однако, эти достоинства могли бы остаться незамеченными, если бы на сервере HotBot не был размещён лучший на сегодняшний день тематический каталог сетевых ресурсов, позволяющий Вам воспользоваться услугами представленных в нём компаний.

   

Рис.3.7. Выбор области и метода поиска в HotBot

Подробные комментарии и объяснения по работе с сервером HotBot можно найти по адресу help.hotbot.com.


Infoseek



Рис.3.8. Рабочее окно Infoseek

Надёжная система как для любительского, так и для профессионального поиска. Поисковый сервер Infoseek (можно перевести как "ищущий информацию") существует с 1994 года (рис.3.8). На сегодняшний день используются две версии: для глобальных и для локальных сетей. Поиск осуществляется по ключевым словам (фразам) или по тематическому каталогу. Инициализация системы производится нажатием клавиши "Seek" (Найти). Основные достоинства: самая крупная база данных, собирающая информацию с локальных серверов от Бразилии до Голландии, плюс удачно реализованная возможность уточнять ареал поиска после получения результата добавлением новых ключевых слов (рис.3.9).



Рис.3.9. Уточнение области поиска в Infoseek

Я, обычно, использую Infoseek как последнее средство поиска, в случае, если другие поисковые системы не обнаружили нужной информации по интересующему вопросу. Почему? Потому что по стандартным запросам Infoseek выдаёт на несколько порядков больше информации, чем любая другая "искалка". Например, по запросу best provider (при поиске в Web-пространстве) я получил свыше 5 миллионов ссылок, в то время, как Yahoo по внутреннему каталогу обнаружила 120 ссылок, а по базе данных AltaVista - около 300 тысяч.


Lycos



Рис.3.10. Рабочее окно Lycos

Ещё одна прекрасная поисковая система (рис.3.10), дающая Вам возможность без труда находить не только документы с упоминанием ключевых слов, но и графические и звуковые файлы по фрагменту имени файла. Позволяет также предельно локализовать область поиска и обладает хорошо структурированным каталогом. 



Filez



Рис.3.11. Рабочее окно Filez

Специализированная машина для поиска файлов в Интернете (рис.3.11).
Для поиска того или иного файла достаточно ввести его имя (с указанием типа файла или без оного) и нажать на кнопку Find (Найти) в окне браузера или на клавишу Enter (Ввести) на клавиатуре. При получении результатов поиска Вы видите не только имена искомых файлов, но и адрес FTP-сервера, на котором данный файл хранится, с указанием конкретной папки. Это позволяет Вам воспользоваться для перекачки файла специально предназначенной для этого программой (например, CuteFTP).

Хотелось бы также упомянуть такие чудесные "искалки", как OpenText, WebCrawler, WhoWhere и многие другие. Однако, боюсь, что у моего читателя уже возник вопрос: "Зачем мне всё это знать?" Справедливо. Всего в Мире Интернета существует свыше 200 поисковых систем. Невозможно (да и не имеет смысла) изучить каждую из них до мелочей. Уже прочитанной информации достаточно для начального поиска. Кроме того, на диске, прилагаемом к книге, есть файл bookmark.htm, в котором, помимо прочего, есть каталог адресов более, чем 50 поисковых серверов, в том числе, специфически израильских и российских.  
Впрочем, о российских поисковых системах хотелось бы сказать несколько слов отдельно.


Российские поисковые системы

Я бы выделил среди них 5: Rambler, Яndex, Следопыт, Апорт и Ау. Всех их отличает молодость, оригинальность решений (зачастую, - следствие нищеты) и стремление во что бы то ни стало помочь русскоговорящему нетизену, не владеющему английским языком или просто желающему искать информацию на родном языке. Кроме того, в базах данных этих поисковых машин можно обнаружить документы, не доступные поисковым гигантам Всемирной Паутины.



Сам разработчик, Дмитрий Крюков, переводит название своей системы как "праздно шатающийся человек". Однако, пусть Вас не смущает несерьёзность названия. На сегодняшний день Rambler, по всей видимости, является не только наиболее популярным, но и наиболее мощным поисковым механизмом в Русской Сети. Существуют две версии "искалки": русская и английская. Опрос проводится по более, чем 2 миллионам документам и каждый день база пополняется тысячами новых материалов. Осенью 1997 года эта поисковая система была официально включена компанией Microsoft в русскую версию Internet Explorer 4.
Поиск осуществляется по стандартно-упрощённой схеме с возможностью использования логических операторов "+" и "-" для увеличения или уменьшения веса данного ключевого слова. Полное описание алгоритмов поиска можно найти по адресу www.rambler.ru/query.html.ru или после клика в строке "Запросы".
Популярность системы Rambler объясняется, на мой взгляд, прежде всего, публикуемыми результатами рейтингов различных узлов Русской Сети. После долгих споров было введено тематическое ранжирование сайтов, что сделало результаты опросов (по частоте посещений данного узла) более правдоподобными. Для ознакомления с ними поэкспериментируйте с кнопками "TOP100" и "Рейтинг сайтов" в левой части основной рабочей страницы поисковой системы.




Это творение компании CompTek International по декларируемым задачам более всего напоминает американскую искалку Excite. Та же забота об удобстве поиска. Клиент может просто вписывать целые фразы  и доверять поиск системе после нажатия на кнопку "Найти!". Основным достоинством поисковой системы является учет русской морфологии и синтаксических связей. Предусмотрена возможность уточнять запрос. Всё это привело к включению Яndex в список поисковых систем под шапкой Microsoft Internet Explorer 4. Для более подробного ознакомления с особенностями этой поисковой машины достаточно нажать на кнопку "Помощь".




На примере системы "Следопыт" (любимого детища компании МедиаЛингва) разберёмся с тем, что такое "метапоисковая" машина.  Говоря кратко, это - машина-паразит. В лучшем смысле этого слова (для наглядности найдите в Глоссарии слово "Хост"). Такая машина исследует чужие базы данных. Так же, как Yahoo может искать внутри каталогов AltaVista, "Следопыт" просматривает каталоги той же AltaVista, плюс, европейской "искалки" EuroSeek, а также уже знакомых Excite, HotBot, Rambler и WebCrawler. Уже только этого было бы достаточно для упоминания "Следопыта" в книге. Но, кроме этого, данная система - ещё и переводчик с русского на английский и обратно. При этом переводится лишь сам запрос, результат поиска выдаётся на языке оригинала. Более подробную информацию можно найти на головной странице поисковой системы при условии, если выбранный Вами для работы браузер поддерживает нужные Java-скрипты. Рекомендую Вам "Следопыт" и для поисков на своём компьютере или в локальной сети (бесплатную, упрощённую версию программы можно загрузить на свой компьютер с сайта www.medialingua.ru).





Разработка компании "Агама" при поддержке российского отделения одного из лидеров компьютерного рынка - "Intel", плюс дизайн Артемия Лебедева. Такое содружество не могло не дать замечательного результата. Эта поисковая система, опрашивая свыше миллиона документов, позволяет не только переводить запросы с русского на английский и обратно, но и переводить результат поиска с английского на русский. Безусловно, переводится не весь документ, а лишь аннотация к документу. В противном случае процесс обработки результатов поиска мог бы безмерно затянуться. Кроме того, в поисковой системе "Апорт!" предусмотрено автоматическое исправление ошибок при составлении запроса.




В тесном сотрудничестве с системой "Апорт!" развивается с лета 1997 года поисковая машина фирмы "Роцит" - "Ау!". Эту "искалку" отличает наличие хорошо структурированного, хотя и крохотного (всего несколько тысяч документов) тематического каталога.


Израильские поисковые системы

В списке специфически израильских поисковых машин можно отметить: метапоисковую систему Sivuv компании VCI, вполне съедобную независимую "искалку" Tapuz и продукт компании Netvision - Walla. Немалую помощь в поисках может Вам оказать и страница обозревателя израильской Сети Жени Нейштадта. Для поиска адресов различных организаций, расквартированных на территории Израиля удобно использовать виртуальный вариант "Дапей Заав" (Yellow Pages).

Дополнительно рекомендую перелистать мою коллекцию поисковых систем и прочитать статью о внешних метапоисковых системах.