2. Поисковые системы в сети Internet
2.1. Поиск информации в Internet.
Основная задача Internet – предоставление необходимой информации. Чтобы найти нужную информацию необходимо знать адрес Web-страницы, на которой эта информация находится. Лучше всего искать в Сети необходимую информацию с помощью поисковых систем. Поисковая система представляет собой специализированный Web-узел. Поисковые системы классифицируют по методам поиска.
Поисковые каталоги предназначены для поиска по темам. Обычно они построены по иерархическому принципу, т.е. каждый шаг поиска это выбор подраздела с более конкретной тематикой искомой информации. На нижнем уровне поиска пользователь получает относительно небольшой список ссылок на искомую информацию.
Поисковый индекс обеспечивает поиск по заданным ключевым словам. Обычно ключевые слова вводятся при заполнении специальной формы поиска, после чего нажимается кнопка Поиск. В результате поиска формируется набор гиперссылок на Web-страницы, содержащий указанные термины. Обычно поисковые индексы выдают огромное количество искомых страниц.
В этом списке представлены ссылки на различные Web-страницы, причем ссылки располагаются по степени убывания встреченных на данных страницах слов, совпадающих с ключевыми словами. При просмотре списка необходимо выбрать те страницы, которые нужно просмотреть. Некоторые системы составляют список ссылок по степени свежести страниц, другие же - по степени вероятности того, что данные страницы окажутся искомыми. Вычисление вероятности основывается на данных о том, как скоро на странице встречается искомое слово. Первыми в таком списке идут ссылки на те страницы, у которых ключевые слова встречаются уже в названии.
Поисковые каталоги предоставляют доступ к меньшему количеству страниц, чем поисковые индексы, но они точнее указывают на основные ресурсы Сети. Поэтому при первичном поиске информации целесообразно использовать поисковые каталоги. А квалифицированным пользователям Internet более полезны поисковые индексы. Они позволяют разыскать малоизвестные и узкоспециализированные ресурсы.
Многие современные поисковые системы сочетают в себе оба указанных метода.
Программа Internet Explorer 5.0 имеет специальные средства организации поиска без явного обращения к поисковым системам. Можно получить доступ к одной из известных поисковых систем, просто щелкнув на кнопке Поиск броузер Internet Explorer.
Если в Internet Explorer щелкнуть по кнопке Поиск, слева появится окно поиска. Далее можно набрать ключевые слова для поиска и выбрать поисковую систему. Результаты поиска будут отражены в правой части окна обозревателя. Если выбрать нужную ссылку, то в правом окне появится содержимое выбранной страницы. Чтобы скрыть окно поиска, необходимо щелкнуть на кнопке Поиск еще раз.
При работе с Internet Ехр1orer можно проводить поиск прямо в поле Адрес. Для этого в адресную строку вводиться слово или фраза для поиска. Под адресной строкой откроется окно со словом Поиск: и искомой фразой. Internet Explorer начнет поиск с использованием заранее определенной системы поиска; при этом кнопка Поиск на панели инструментов нажмется сама.
Можно осуществить поиск нажав кнопку Пуск и выбрав опцию меню Найти, а затем в Интернете. Окно Internet Explorer откроется само с уже нажатой кнопкой Поиск.
Если удалось найти то, что искали, но все же не совсем то, то в этом случае пригодится механизм связанных ссылок. Для любой Web-страницы можно просмотреть список ссылок, имеющих к ней отношение, возможно, среди них окажется как раз то, что нужно. Чтобы просмотреть связанные ссылки, нужно сделать следующее. Необходимо выбрать в меню Сервис команду Показать связанные ссылки.
После этого на панели инструментов нажать кнопку Поиск, и в левой части экрана полнится окно, содержащее список ссылок, связанных с данной страницей. Нужно щелкнуть на одной из ссылок, и просмотреть в правом окне соответствующую Web-страницу.
Чтобы скрыть окно поиска, необходимо щелкнуть еще раз на кнопке Поиск.
2.2. Работа с основными поисковыми системами.
Существует огромное количество поисковых систем. Ниже приведено описание наиболее известных и популярных во всем мире систем поиска.
Lycos. В Lycos используется следующий механизм индексации:
слова в заголовке имеют высший приоритет; слова в начале страницы; слова в ссылках; если в его базе индекса есть сайты, ссылка с которых указывает на индексируемый документ - релевантность этого документа возрастает.Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной. Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа "Like this", но намечается его расширение и на другие способы организации поисковых предписаний.
AltaVista. Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:
· слова содержащиеся в теге <title> имеют высший приоритет; ключевые фразы в <Meta> тэгах;
· ключевые фразы, находящиеся в начале странички;
· ключевые фразы в ALT - ссылках
· ключевые фразы по количеству вхождений\присутствия слов\фраз;
Если тэгов на странице нет, использует первые 30 слов, которые индексирует и показывает вместо описания (tag description)
Наиболее интересная возможность AltaVista - это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.
Yahoo. Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR. При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.
OpenText. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.
Infoseek. В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты:
слова в заголовке <title> имеют наивысший приоритет; слова в теге keywords, description и частота вхождений\повторений в самом тексте; при повторении одинаковых слов рядом выбрасывает из индекса Допускает до 1024 символов для тега keywords, 200 символов для тэга description; Если тэги не использовались, индексирует первые 200 слов на странице и использует как описание;Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, и "-" - термин должен отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.
WAIS. WAIS является одной из наиболее изощренных поисковых систем Internet. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet.
В России также создано большое количество поисковых систем. Ниже приведена таблица сравнительных характеристик российских поисковых систем.
Сервер | Зона поиска | Глубина поиска | Язык запроса | Вывод результатов поиска |
Яndex | Русская часть Интернет, включая домены "su" и "ru", а также русскоязычные ресурсы в других доменах | Все слова в документе с учетом русской и английской морфологии | AND, OR, NOT. Поиск по точной словоформе. Под-держка скобочных выражений. Поиск в заголовках и ссылках. Есть возможность поиска на естественном языке без использования логических опера-торов. Возможность сужения поиска на заданный URL. Поиск картинок по названию или альтернативному тексту. Поиск ссылок на указанный URL. | Название документа, размер файла, URL, дата последнего обновления, степень соответствия запросу, кодировка. Подсветка искомых слов в найденных документах. Есть возможность поиска похожих документов и повторного поиска только в найденных документах |
Rambler | WWW | Все слова в документе | AND, OR, NOT. Возможность усечения терминов. Ограничение по дате. Возможность сужения поиска на заданный URL. Возможность исключения из поиска документов, содержащих указанные слова. | Название документа, размер файла, URL, дата последнего обновления, степень соответствия запросу, кодировка |
Новый русский поиск | WWW | Все слова в документе | AND, OR, NOT. Поиск по словосочетанию | Название документа, размер файла, URL, дата последнего обновления, степень соответствия запросу |
Русская машина поиска | WWW | Все слова в документе | AND и OR. Поиск по фразе, допуск максимального количества ошибок, чувствительность к строчным и прописным буквам | Название документа, URL, степень соответствия запросу |
Созвездие Internet | Каталог WWW | Название и краткая характеристика сервера | Возможность усечения терминов | Название сервера, краткая характеристика содержания, кодировки |
Russian Internet Search | WWW | Все слова в документе | AND и OR, чувствительность к строчным и прописным буквам, допуск возможного числа ошибок | Название документа, URL |
Апорт! | WWW | Все слова в документе | AND и OR, поиск по фразе, возможность усечения, чувствитель -ность к строчным и прописным буквам, учет русской морфологии | Название документа, размер файла, URL, дата последнего обновления, степень соответствия запросу, кодировка |
TELA - ПОИСК | WWW | Все слова в документе | AND или OR, возможность усечения терминов, русская морфология | Название документа, размер страницы и число слов URL, дата последнего обновле-ния, степень соот-ветствия запросу (очки). Интересная возможность прос-мотреть содержание найденного документа (без картинок) прямо со страницы поисковой системы |
Ау! | Каталог русского WWW | Поиск либо по категориям, либо по описаниям серверов | Аналогично Апорт! | Название сервера, краткое описание, местоположение, доступность |
List.ru | Каталог WWW | Название и краткая характеристика сайта | Полнотекстовый поиск ресурсов по их названиям, описаниям и ключевым словам с помощью поисковой системы Яndex.Site. | Название сервера, краткое описание. Возможность сорти-ровки серверов в каждой категории по алфавиту, по времени добавления, по переходам |
Siberian Links | Каталог WWW Принцип включения в каталог не описан | Название и краткая характеристика сайта. | И, ИЛИ. Поиск по ключевым словам или фразам. | Название сервера, краткое описание. Система рейтинго-вания серверов. |
2.3. Поиск по рубрикам и тематическим разделам
Чаще всего потребителю необходима информация по определенной тематике. Большинство поисковых серверов позволяет достаточно быстро найти список сайтов соответствующих запросам пользователя. Искать информацию по тематике достаточно просто. Нужно зайти на сайт, который использует данный способ поиска (например list.ru) и выбрать высший уровень поиска. Далее выбирая следующий подуровень и щелкнув мышью на его названии пользователь опускается все ниже и ниже. И наконец получает список сайтов, который соответствует запросу пользователя. Например:
Пользователь желает найти на поисковом сервере List.ru сайты с информацией о российских рок-музыкантах. Для этого он должен подключиться к Internet и набрать в адресной стоке адрес www.list.ru На экране появится список рубрик для поиска. Пользователь выбирает рубрику «Культура/Искусство». На экране появляется список тематик соответствующих выбранной рубрике. Выбираем тему «Музыка». Далее из появившегося на экране списка подтем выбираем тематику «Современная музыка». Из следующего уровня мы выбираем рубрику «Рок музыка». И наконец на экране появляется среди прочих тематик название «Русский рок». Щелкнув мышью на гиперссылке «Русский рок» выходи на следующий уровень сужающий объем нашего поиска. Мы выбираем тему «Классический рок». И наконец получаем список групп сайты которых есть в списке поискового сервера list.ru. После этого выбираем название группы – например «Аквариум» и получаем список сайтов содержащих информацию о рок-группе «Аквариум». Далее выбираем сайт, который нас интересует, и просматриваем информацию на нем.
Можно ускорить поиск необходимой информации, если заранее известно, что необходимо найти. Например, если известно, что ищется сайт группы «Аквариум», то можно использовать комбинированный поиск по тематике «Музыка» и ключевому слову «Аквариум».
Таким образом, опытный пользователь Internet может найти практически любую информацию по интересующей его теме.
Список использованной литературы М. Пайк. Internet . СПб., 1996. Пол Гилстер. Навигатор Internet. М., 1995 Энциклопедия Интернет, СПб, 2001 Информатика. Базовый курс. Учебник для ВУЗов, СПб, 2001.
... вам устанавливать связь и передавать информацию. И Internet тоже состоит, в первую очередь, из выделенных телефонных линий. Но увы! Картина эта неверна и приводит ко многим заблуждениям относительно работы Internet, ко множеству недоразумений. Телефонная сеть - это так называемая сеть с коммутацией линий, т.е. когда вы делаете вызов, устанавливается связь и на все время сеанса связи имеется ...
... бланка опроса. !Внимание! Значок «è» информирует, что следующим следует задавать вопрос, номер которого указан за ним. Бланк для изучения мнения потенциальных и реальных пользователей всемирной компьютерной сети Internet о проблемах ее существования и развития в Москве. 1. Припомните пожалуйста, откуда или от кого вы впервые узнали об Internet? 01. c От друзей, знакомых или посторонних ...
... , принтером или факсом. Остается решить, а нужен ли Вам для эффективного ведения бизнеса еще какой-либо инструмент, кроме коммуникатора? 4. Реальные возможности сети В настоящее время информация в Internet оказывается доступной из различных источников - сервера предприятий и организаций, новостные и информационные порталы, электронные библиотеки документов, "домашние" страницы пользователей ...
... -то имя «знакомому» с ней компьютеру. Вам не нужно ни искать это имя вручную, ни давать для поиска нужного компьютера специальную команду, хотя при желании это также можно сделать. Все компьютеры в Internet могут пользоваться доменной системой, и большинство из них это делают. Когда Вы используете имя, например, ux.cso.uiuc.edu, компьютер должен преобразовать его в адрес. Чтобы это сделать, Ваш ...
0 комментариев