3. Изучение информационных технологий в экономике
3.1 Работа в Интернет с поисковыми системами
Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.
Модуль индексирования
Модуль индексирования состоит из трех вспомогательных программ (роботов):
Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.
Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:
- URL страницы
- дата, когда страница была скачана
- http-заголовок ответа сервера
- тело страницы (html-код)
Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.
Indexer (робот - индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.
Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.
База данных
База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.
Поисковый сервер
Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.
Поисковый сервер работает следующим образом:
- Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
- Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
- В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
- Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
- Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.
Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов. Эффективность любого вида деятельности определяется четким представлением того, что, как и в какой последовательности мы собираемся делать, т.е. четким планированием работ. Сказанное в полной мере относится и к процедуре поиска информации в сети Internet.
Рассмотрим, из каких этапов состоит процесс поиска информации:
№ | Этап | Содержание работ этапа |
1. | Определение предмета поиска | На этом этапе определяем, что конкретно нас интересует. |
2. | Составление списка ключевых слов | На этом этапе выявляем, как может называться то, что нас интересует. |
3. | Выбор информационного пространства | На этом этапе определяем, где может находиться то, что нас интересует. |
4. | Определение инструмента для поиска | На этом этапе принимаем решение о том, как проще и быстрее найти то, что нас интересует. |
5. | Предварительный поиск | Пробуем найти. |
6. | Анализ полученной информации | Смотрим на полученные результаты. Если это необходимо (в том случае, когда полученные результаты нас не устраивают), проводим корректировку всех предыдущих действий. |
7. | Дополнительный поиск | Ищем дальше, пока не получаем ответ на свой вопрос. |
Неплохо, также, определить время, в течение которого информация должна быть найдена, оценить альтернативные способы получения и степень важности этой информации для Вас. В любом случае опирайтесь на здравый смысл: возможно, для поиска адреса нужной Вам фирмы достаточно открыть телефонный справочник, лежащий у Вас на столе или просто набрать телефон этой фирмы и попросить секретаря продиктовать его Вам (особенно, если Вы заходите в Internet через модем).При единичном поиске поставщика необходимой товарной продукции, в некоторых случаях, работать с печатным каталогом может оказаться удобнее. Но гораздо эффективнее для проведения сравнительного анализа цен за последние несколько месяцев, взять информацию из точно такого каталога, но размещенного в сети (Вам, по крайней мере, не придется заново набирать информацию, занося ее в персональный компьютер).
... : завтрак, ланч, обед, а также вина, закуски и напитки в течение дня. Возможные варианты меню на каждый день оговаривается с экипажем на месте /24/. 3. Традиции питания разных народов как основа разработки туров для гурманов 3.1 Особенности национальных блюд и история их происхождения Кухня любой страны – это свой, особый мир: яркий и острый, либо тусклый и никакой, изысканный ми ...
... хлеба и хлебобулочных изделий. Рисунок 3.1.5 - Прилавок. Предназначение: прилавок предназначен для хранения разного рода продуктов (консервов, алкогольных напитков, соков и др). 4. Анализ коммерческой деятельности 4.1 Маркетинговая деятельность Грамотный бизнес требует внятной концепции, то есть необходимо четко понимать, какие задачи компания ставит перед собой, и как он будут ...
... - на 10%; при упаковке в полистироловые коробки, поддоны, антисептические пакеты типа «Тетра-Брик», «Тетра-Рекс», «Тетра-Пак» - на 25%. 4 Совершенствование маркетинговой деятельности ОАО «Березовский сыродельный комбинат» 4.1 Совершенствование товарной политики предприятия. Бизнес- план по внедрению в производство нового вида продукции – мороженого «Яначка» С целью совершенствования ...
... 20 марок. В северных провинциях вина, как правило, более нежные, чем грубое вино с юга, за исключением многих легких и ароматных вин Сицилии. Во многом высокий уровень развития туризма в Италии объясняется высоким качеством сервиса и обслуживания. Конечно же, дело здесь и в итальянском характере. Приятно по прибытию в страну встретить гостеприимных и жизнерадостных людей. Ваше пребывание станет ...
0 комментариев