ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
1 СРЕДСТВА ПОИСКА
1.1 Средства поиска файлов
1.2 Средства WWW – World Wide Web (Всемирная сеть)
2 ОСНОВНЫЕ ПРИЕМЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ
2.1 Основные требования к поиску
2.2 Методика поиска информации в Интернете
2.3 Развитие информационного ресурса
2.4 Требования к инструментам поиска
2.5 Структура поисковых сервисов
2.6 Глобальные поисковые машины WWW
2.7 Планирование поиска
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
ВВЕДЕНИЕ
Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно, но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем случае, можно обратиться к опытному библиотекарю. Полного каталога Интернета не существует. Но, тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.
Сегодня, когда Интернет стал одним из основных источников информации, поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска.
Интернет – это глобальная компьютерная сеть, которая связывает между собой как пользователей компьютерных сетей, так и пользователей ПК. Интернет медленно, но верно становится основным средством корпоративного общения, уступая пока телефону.
В Сети наличествует гигантское количество информационных ресурсов. По некоторым оценкам, число документов превысило 65 млн. и продолжает стремительно расти. Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространенному ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть содержит информацию, не относящуюся к делу.
Источники информации в Интернете различаются по способу представления информации, а следовательно, и по методу доступа к ним.
1.1 Средства поиска файлов
Поиск файла вручную в сложной структуре каталогов ftp-сервера может занять достаточно много времени. Для упрощения и ускорения поиска была разработана поисковая служба Интернета Archie, представляющая собой специальные Archie-сервера, хранящие содержание каталогов анонимных ftp-серверов. При обращении с поисковым запросом на Archie-сервер результатом поиска является список адресов анонимных ftp-серверов, на которых имеется искомый файл.
Но возникает задача отыскать среди множества файлов этого сервера искомый, что достаточно сложно из-за маловыразительных и непонятных имен файлов и каталогов. Для решения этой проблемы используется система Gopher, позволяющая перемещаться по системе контекстных меню, показывающих содержимое фай лов с использованием понятых обозначений. Существует очень много Gopher-серверов, которые содержат архивы данных в виде иерархически структурированных каталогов, упорядоченных по содержанию. Работа с ними очень проста и соответствует работе с обычным отображением файловой системы.
Существует расширение этой системы - Veronica, которое содержит в своей базе данных каталоги всех Gopher-серверов. После ввода поискового запроса Veronica автоматически просматривает все Gopher-каталоги на наличие искомой информации и тем самым избавляет от долгого поиска вручную по многим Gopher-серверам.
С таким способом навигации Gopher в определенной степени был предшественником WWW. В настоящее время применение Gopher уменьшается пропорционально росту использования WWW.
В 1993 году была разработана информационно-поисковая система WWW, которая благодаря простоте навигации и доступности открыла информационные источники Интернета неподготовленным пользователям. WWW вызвал бум в сети Интернет, который продолжается по настоящее время, и объемы доступной информации Интернета ежегодно удваиваются.
WWW основывается на принципе гипертекста (уже знакомого читателю), то есть на системе документов, связанных гиперссылками. Гипертекст представляет собой ключевые Слова, особым образом выделенные из обычного текста. Гипертекстовые ссылки отправляют пользователя на другие документы того же сервера либо на другие сервера, которые могут располагаться в любом месте Интернета. Если этот текстовый документ тоже гипертекстовый, то его ссылки позволяют перейти далее на соответствующие документы. Каждая переадресация происходит для пользователя незаметно, так что он может просматривать информационный состав Интернета но содержательному принципу, не заботясь об адресации конкретных компьютеров.
С развитием мультимедийных приложений изначально чисто гипертекстовые документы все больше и больше становятся гипермедийными. Таким образом, WWW-документы могут существовать в любом формате данных: текст, графика, звук/музыка или видеоклип. Ориентация и навигация во Всемирной сети происходят с использованием специальных программ, называемых WWW-браузерами, обеспечивающими пользовательский интерфейс, как, например, Netscape Navigator или Microsoft Internet Explorer.
Отправной точкой поиска информации служит, как правило, основная (базовая, домашняя) страница (сайт) информационного ресурса, которой можно достичь, введя соответствующий адрес в браузере (например, http://ncpi.gov.by или www.iparegistr.com). WWW-сайты создаются и обновляются фирмами либо специальными организациями, публикующими информацию и следящими за содержанием своих WWW-страниц. Использование WWW, таким образом, не является пассивным, и каждый пользователь Интернета при помощи специальных программ-редакторов гипертекста может самостоятельно создавать собственные интерактивные WWW-страницы. Это и открыло путь для растущей коммерциализации и расширения Интернета.
В настоящее время вновь создаваемая информация, как правило, изготавливается с учетом необходимости обеспечения WWW-доступа, а более ранние документы постепенно преобразуются под него, однако во всем мире существуют еще миллионы файлов в форм отличных от требований WWW. Для использования этой информации и через WWW в браузеры включены вышеописанные службы Интернета, обеспечивающие доступ к ней (telnet, ftp, Archie, Gopher). Через WWW можно использовать и другие службы Интернета, которые предназначены для общения (eMail, NetNews). Поэтому WWW-браузер стал в настоящее время универсальной коммуникационной программой Интернета.
С появлением WWW-службы и начался бум в сети Интернет. Благодаря этой простой в применении и единой для всех служб пользовательской среде Интернет заинтересовал множество людей и организаций. Оказалось вдруг, что не надо быть специалистом в области Интернета, чтобы пользоваться службами сети. Это можно сравнить с успехом фирмы Microsoft, связанным с выпуском Microsoft Windows в качестве графической пользовательской оболочки. До появления Windows у каждого DOS-приложения было собственное руководство пользователя и тем самым требовалось отдельно изучать каждое приложение.
2.1 Основные требования к поиску
К результатам поиска предъявляются требования полноты охвата ресурсов, достоверности полученной информации, минимальных затрат времени и максимальная скорость поиска.
Требование полноты охвата ресурсов не нуждается в дополнительных пояснениях, за исключением необходимости использовать при поиске ресурсы не только WWW, но и других служб Интернета.
Достоверность информации, учитывая природу Интернета, становится чрезвычайно важным требованием. Оценка достоверности может производиться как традиционными методами (проверка легальности публикаций на бумажных носителях, получение сведений об организациях и авторах, выяснение действительности их электронных ресурсов и т.п.), так и с Использованием возможностей Интернета (ознакомление с альтернативными источниками информации, сверка фактического материала, установление частоты его использования другими источниками; выяснение статуса документа и рейтинга источника средствами поисковых систем, получение информации о компетентности и статусе автора материала с помощью специальных поисковых сервисов Интернета; анализ отдельных элементов организации сайта с целью оценки квалификации поддерживающих его специалистов и другое).
Время поиска, не считая затрат времени, связанных с техническими характеристиками подключения, в основном зависит от планирования поиска и навыков работы специалиста по поиску с ресурсом выбранного типа. Планирование поиска заключается в определении требуемых для разрешения поискового требования поисковых служб и порядка их применения. Кроме того, многое зависит от навыков и опыта конкретного специалиста по поиску.
Как уже отмечалось, информация в Интернете доступна из источников разного типа. Прежде всего - это WWW-ресурсы (гипертекстовая система, каталоги ресурсов, поисковые машины). Кроме того, это уже известные читателю электронная почта, почтовые роботы, Usenet и другие телеконференции, а также ftp-системы и архивы (с применением Gopher и Veronica). WWW позволяет производить поиск требуемых ресурсов на основе своих гиперсвойств, то есть имеющиеся поисковые системы работают с использованием гиперссылок в автоматическом режиме, не исключая возможности ручного просмотра. В WWW имеется целый ряд поисковых сервисов как общего, так и специализированного назначения.
Каталоги ресурсов представляют собой базы данных с адресами ресурсов Интернета и самыми разными тематиками. Обычно они имеют иерархическую структуру, привычную для пользователя, и некоторые средства поиска по ней. Эти каталоги в большей своей части обслуживаются специалистами по классификации, то есть предопределяется некоторый субъективный подход к отбору информации, который, с одной стороны, несколько гарантирует достоверность информации, но с другой - предопределяет возможность отсутствия (пропуска) части информации, а также се запоздалое размещение в каталоге.
Поисковые машины - это механизм автоматического построения ссылок (индексов) на различные ресурсы. Поисковые машины могут быть ориентированы на глобальные, специализированные или локальные ресурсы. По сути они являются мощными ИПС, которые с помощью специальных программ-роботов (так называемых "пауков") постоянно осуществляют автоматический поиск требуемой информации в Интернете. Созданные на этой основе специализированные БД обеспечивают поиск информации по запросам пользователей на основе специальных ИПЯ. Правда, охват просматриваемой информации зависит от применяемых алгоритмов и даже для мощных поисковых машин оставляет желать лучшего.
Электронная почта применяется в Интернете и в WWW. Адреса при этом попадают в поисковые системы и доступны поисковым машинам.
Почтовые роботы - это специальные программы, способные отвечать определенными действиями на команды, поступающие им, но электронной почте. Их основное назначение - пересылка данных по запросу в случае, когда те недоступны иным способом, а также как альтернатива работы в режиме online с каким-либо из известных ресурсов, например ftp-архивами. Адрес почтового робота имеет формат электронной почты. При поиске почтовые роботы обычно используются лишь как посредники при получении информации. Иногда приходится сталкиваться с тем, что они оказываются единственным средством получения нужных сведений.
Usenet и другие региональные и специализированные телеконференции представляют собой электронные "доски объявлений", где пользователь размещает свою информацию в одной из тематических групп новостей, передаваемых подписчикам соответствующей тематики. Этот ресурс наиболее значим для быстрого накопления информации, но узкому вопросу, а при поиске - чаще для получения частной, неофициальной информации.
Ресурсы, доступные по telnet, в ряде случаев представляют собой совершенно уникальную информацию, прежде всею по библиотечным каталогам европейских и американских университетов, а также государственных учреждений.
Как уже отмечалось, система файловых архивов ftp имеет достаточно обширные ресурсы ценной информации, до сих пор не переведенной в WWW. Архивы ftp представляют собой в первую очередь источники получения программного обеспечения. Поиск в них может представлять определенный интерес при знании структуры архивов; построения файловых систем, имен файлов и каталогов, содержащих требуемые ресурсы.
Поиск необходимой информации в Интернете можно осуществлять различными способами:
· Поиск с помощью поисковых машин по ключевому слову
· Поиск с помощью классификаторов поисковых машин
· Каталоги и коллекции ссылок (более общие понятия)
· Рейтинги (самые популярные ресурсы)
· Конференции, чаты
· Страницы ссылок (“Links”) на тематических сайтах (редкие, специализированные вещи)
· Несетевые способы (советы друзей, знакомых; реклама в печатных изданиях)
В начале поиска информации необходимо определить ее тип. Условно можно выделить 4 типа информации.
1 тип — общая (например: история Российской империи),
2 тип — менее общая (например: император Александр II),
3 тип — конкретная (например: реформы Александра II),
4 тип — более конкретная (например: отмена крепостного права).
В зависимости от типа информации определяются и пути поиска.
Информация 1 типа ищется с помощью классификаторов поисковых машин (из российских — рекомендуется Яндекс www.Yandex.ru ). Если сразу сайты с требуемой информацией не находятся, то следует просматривать найденные по классификатору каталоги и страницы ссылок (“Links”), которые находятся сайтах подобной тематике. Эти сайты приводятся в классификаторе по теме и найденных каталогах.
Информация 2 типа ищется подобно поиску для 1 типа, но с преимуществом поиска по каталогам и страницам ссылок.
Информация 3 типа — по ключевым словам, которые вводятся в строку поиска поисковых машин, каталогам, страницам ссылок
Информация 4 типа — по подробным данным, которые вводятся в строку поиска. Данные находятся согласно способам поиска изложенных для 2 и 3 типов.
Примеры:
Поиск по 1 типу. Требуемая информация: «История Российской империи».
Заходим в Яндекс — Наука и образование / Общественные науки / История. По описанию темы находим сайт http://rus-hist.on.ufanet.ru.. Если в нем нет необходимой информации, то переходим на страницу ссылок этого сайта. На ней имеются ссылки на каталоги ресурсов: www.history.ru, http://www.lants.tellur.ru/history/index.htm. В них, скорее всего, будут найдены сайты по на заданную тему.
Поиск по 2 типу. Требуемая информация: «Император Александр II».
Поиск осуществляется аналогично предыдущему, но больше внимания уделяется работе с каталогами www.history.ru, http://www.lants.tellur.ru/history/index.htm .
Поиск по 3 типу. Требуемая информация: «Реформы Александра II»
Здесь появляется новый способ поиска — по ключевым словам. Пишем в строке поиска Яндекса «Реформы Александра II». Результат для просмотра — 1790 страниц, которые находятся на 170 сайтах, в число которых входят и каталоги. Для сужения информации можно добавить новые ключевые слова — дополнительные факты в уже найденном подборе сайтов, например: «1860-1870 гг.» и т. д. В других поисковых машинах набирается полностью «Реформы Александра II в 1860-1870 гг.». Для поиска заданной информации можно еще использовать “Links”, которые приводятся на найденных сайтах
2.3 Развитие информационного ресурсаКак и другие информационные технологии, Интернет создают разработчики, но в данном случае в основном это создатели ресурсов (начиная от специалистов, ведущих поддержку hard- и software, дизайнеры, художники, редакторы и самое главное - авторы информационных ресурсов). Естественно, создание ресурсов - не самоцель, ресурсы востребуются пользователями сети, то есть теми же специалистами и потребителями ресурсов, среди которых, как уже отмечалось, появляется новый слой - специалисты по data mining, по поиску информации. Информационные ресурсы Интернета, как, впрочем, и другие, в том числе неэлектронные информационные ресурсы (в частности, средства массовой информации), характеризуются определенными состояниями своей деятельности (рис. 9.3).
Ресурс зарождается в соответствии с потребностями общества и его возможностями (в частности, связанными с уровнем технического и социального состояния общества).
По мере возможности происходит "взросление", становление ресурса (или его исчезновение при полном отсутствии востребованности, то есть исчезновение, возможно, не в физическом смысле - сайт может существовать, а именно в смысле востребованности).
При определенном уровне востребованнности и (в том числе и стараниями авторов сайта) происходит его каталогизация, то есть сведения о ресурсе появляются в различных каталогах, соответствующих типу ресурса.
Индексирование, то есть появление ресурса в индексах поисковых машин, происходит при достижении определенных объемов информационного наполнения и востребованности.
При наличии постоянного роста востребованности происходит и постоянное развитие ресурса, в противном случае ресурс угасает и постепенно исчезает из индексов и каталогов.
2.4 Требования к инструментам поиска
Как отмечалось ранее, чертами, присущими профессиональному поиску, являются его полнота, достоверность и высокая скорость. Наиболее серьезным и нетривиальным фактором, определяющим быстроту достижения цели поиска, оказывается планирование поисковой процедуры. Это требует, с одной стороны, выбора типа ресурсов, которые потенциально способны нести информацию, релевантную поисковой задаче, а с другой - выбора инструментов поиска, обслуживающих соответствующее информационное поле, в зависимости от их предполагаемой результативности. Если говорить о наиболее емком на сегодняшний день с точки зрения информационного наполнения WWW-пространстве, то относительное изобилие его поисковых средств делает решение большинства практических задач многовариантным. Построение оптимальной последовательности применения тех или иных инструментов на каждом этапе поиска и предопределяет его эффективность. Помочь решить проблему выбора может четкое представление о видах, назначении и особенностях работы информационно-поисковых систем (ИПС) Интернета.
... информацию, используя выделенные тематические разделы (предметные каталоги) в поисковых машинах. Такой способ поиска информации в Интернете осуществляется по виду библиотечного каталога. Например, если необходимо найти информацию о начислении амортизации основных средств, следует обратиться к разделу "Бухгалтерский учет". В нем выбрать раздел "Основные средства". А в разделе "Основные средства" - ...
... энд) системы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и являющийся коммерческой тайной компании-разработчика поисковой системы. 1. Основные методы поиска информации в Интернете Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей ...
... аналитический обзор найденных документов; - создание Web- страницы на основе найденных в сети документов.1 ОБЩИЕ ПРИНЦИПЫ ОРГАНИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ 1.1 Поиск информации в Интернет: стратегия и методика Поиск информации является одной из наиболее распространенных и одновременно наиболее сложных задач, с которыми приходится сталкиваться в Сети любому пользователю. ...
... 2. Важные ресурсы могут быть упущены вследствие размещения ресурса в неожиданном разделе каталога. 2. ПОИСК ИНФОРМАЦИИ. АНАЛИТИЧЕСКИЙ ОБЗОР НАЙДЕННЫХ ДОКУМЕНТОВ При поиске информации по теме «Учет амортизации (износа) основных средств» были использованы такие поисковые системы как http://uk.altavista.com., http://www.aport.ru, http://www.rambler.ru/, http://www.yandex.ru, http://www.mail.ru/. ...
0 комментариев