1 ОБЗОР И АНАЛИЗ СУЩЕСТВУЮЩИХ СИСТЕМ КЛАССИФИКАЦИИ ИНФОРМАЦИИ

 

В настоящее время задача автоматического разнесения информационного потока по тематическим рубрикам является одной из важнейшей в области обработки информации в системах электронного документооборота. Главное внимание при организации работ по управлению информацией сосредоточено на проблему автоматизации процессов классификации информационных сообщений СМИ. Наиболее актуальными являются задачи загрузки информационных сообщений в информационную базу, обработки текстовой и цифровой информации, переход к структурированным сообщениям, оперативная корректировка структуры рубрикатора и словаря.

В настоящее время в отделах документооборота началось активное использование программных продуктов для автоматизации процесса классификации.

Наибольшее распространение в отделах документооборота получили программные продукты: поисково-аналитическая система «Галактика-Зум», система «Термин-5», информационно-аналитическая система «Астарта», информационно-аналитическая система INLINE Technologies.

Каждый из вариантов имеет свои преимущества и недостатки. Наиболее распространенные зарубежные системы хорошо отлажены, но имеют гораздо более высокую стоимость, недостаточно приспособлены к принятым в организациях технологиям, стандартам и форматам, что требует их серьезной и дорогостоящей адаптации.

Отставание отечественных систем объясняется в основном тем, что при отсутствии значительных финансовых инвестиций российские системы используют в качестве базового программного обеспечения бесплатные или дешевые пакеты программ, которые не предназначены для создания высокотехнологичных систем.

Учитывая сложившуюся ситуацию, целесообразно осуществить анализ отечественных систем с целью доработки их до уровня полной конкурентоспособности.

Рассмотрим ряд автоматизированных систем по процессу классификации информации.

Поисково-аналитическая система «Галактика-Зум» предназначена для компаний и организаций, которым необходимо автоматизировать процесс классификации.

Программа предоставляет следующие возможности:

- определение «информационного портрета» запрашиваемой темы, то есть набор упорядоченных по значимости ключевых слов и словосочетаний, характерный именно для данной выборки;

- решение задачи ранжирования документов выборки по значимости – по наибольшему соответствию инфопортрету выборки количества значимых тем и их ранга в рассматриваемом документе;

- корректирование полученных инфопортретов;

- сравнение инфопортрета документа с инфопортретами рубрик, с отсечение малохарактерных инфопортретов.

Информационно-аналитическая система «Астарта» предназначена для компаний и организаций, которым необходимо автоматизировать и кардинальным образом повысить эффективность сбора, обработки и анализа неструктурированной информации, получаемой из Интернета, печатных материалов, СМИ и т.д. Программное решение базируется на технологии «Евфрат» и предназначено для сбора, обработки и анализа неструктурированной информации, получаемой из Интернета, печатных материалов СМИ и других источников.

К недостаткам данных систем можно отнести следующее:

- неудобный для работы интерфейс;

- отсутствие достаточно полного словаря для процесса классификации информационных сообщений;

- отсутствие необходимых для эффективной работы функций формирования рекомендаций для принятия решений и отчетов.

Таким образом, учитывая возможности и недостатки существующих систем, необходимо разработать систему, которая предоставляла бы следующие возможности:

- создание информационной базы для автоматизированного процесса классификации статей по категориям рубрикатора;

- загрузка информационных сообщений СМИ в информационную базу;

- обработка текстовой и цифровой информации с использованием метода нечеткого поиска;

- классификация информационных сообщений с использованием метода ранжирования;

- возможность оперативной корректировки структуры рубрикатора и словаря;

- формирование рекомендаций для принятия решений;

- формирование отчетов.


2 ОБЩЕСИСТЕМНЫЕ РЕШЕНИЯ

 

2.1 Пояснительная записка к техническому проекту

Полное наименование системы: Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации (СМИ). Условное обозначение: АИС «Классификатор».

Заказчик: Управление информационных и аналитических технологий аппарата администрации Тульской области (УИАТ ТО), отдел технологий отображения информации (ОТОИ).

Разработчик: студентка Тульского государственного университета факультета Экономики и права кафедры Автоматизированных информационных и управляющих систем группы 730211 Жиренкова Ирина Юрьевна.

Плановые сроки начала и окончания работы по созданию системы:

- начало работ: 1 сентября 2006 года;

- окончание работ: 1 декабря 2006 года.

Разрабатываемая АИС «Классификатор» предназначена для обеспечения более удобной, эффективной и качественной работы консультанта ОТОИ, связанной с обработкой информации и присвоение ей классифицирующих атрибутов.

Целью создания системы является автоматизация процесса классификации информационных сообщений СМИ. Система позволит освободить человека от необходимости рутинной работы по отслеживанию необходимой информации, принадлежащей к той или иной рубрике, а также сократить время на их обработку.

АИС «Классификатор» включает в себя следующие подсистемы:

1) подсистема ведения информационной базы;

2)   подсистема обработки информационных сообщений СМИ;

3)   подсистема настройки параметров;

4)   подсистема классификации информационных сообщений СМИ.

Подсистема ведения информационной базы должна выполнять следующие функции:

1) формирование информационной базы;

2) добавление записи;

3) изменение записи;

4) удаление записи;

5) сохранение записи.

Подсистема обработки информационных сообщений СМИ должна выполнять следующие функции:

1)               открытие списка текстовых файлов в каталоге;

2)               открытие файла;

3)               считывание строки из файла;

4)               запись информационных сообщений СМИ в базу;

5) закрытие файла.

Подсистема настройки параметров должна выполнять следующие функции:

1) определение каталога с файлами;

2) настройка расширения файлов с исходными данными;

3) настройка параметров классификации.

Подсистема классификации информационных сообщений СМИ должна выполнять следующие функции:

1) поиск записей по различным ключам словаря с помощью метода нечеткого поиска;

2) классификация сообщений по результатам поиска;

3) формирование рекомендаций для принятия решений;

4) формирование отчетов.

Информационное обеспечение организовано в соответствии с принципами развития, совместимости, стандартизации и унификации.

Входными данными являются:

- информационные сообщения СМИ;

- параметры классификации;

- рубрикатор тем;

- словарь.

Выходными данными являются результаты классификации информационных сообщений СМИ.

Выходными документами являются:

- отчет по результатам классификации;

- отчет по обработанным сообщениям СМИ.

АИС «Классификатор» была разработана в среде программирования Borland Delphi 7.0, основным инструментом которого является Object Pascal. На магнитных носителях сведения о сообщениях хранятся в виде базы, которая разработана в системе MS Access. Сами информационные сообщения хранятся в файлах на жестком диске. Программное обеспечение реализовано с помощью модульного принципа и функционирует независимо от аппаратной части.

Для функционирования АИС «Классификатор» разработан комплекс технических средств, включающий в себя ПЭВМ на базе процессора Intel Celeron с тактовой частотой 2 ГГц, клавиатуру, мышь, монитор SVGA, 2 Гбайт на жестком диске, 512 Мбайт оперативной памяти (RAM), операционную систему Windows Me, 2000, XP.

Для ввода системы в эксплуатацию необходима персональная ЭВМ с набором периферийных устройств рабочего места. Также необходимо провести ознакомление консультанта ОТОИ с принципами работы данной системы.



Информация о работе «Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации»
Раздел: Информатика, программирование
Количество знаков с пробелами: 73358
Количество таблиц: 15
Количество изображений: 7

Похожие работы

Скачать
344059
1
0

... мероприятия по новому месту работы, жительства; также в окружении носителей коммерческих секретов. Персонал оказывает су­щественное, а в большинстве случаев даже решающее влияние на информационную безопасность банка. В этой связи подбор кадров, их изучение, рас­становка и квалифицированная работа при увольнени­ях в значительной степени повышают устойчивость коммерческих предприятий к возможному ...

Скачать
83570
0
0

... ; однако, чтобы выполнять предназначенную ему роль, сам модуль также нуждается в защите, как собственными средствами, так и средствами окружения (например, операционной системы). Стандарт шифрования DES Также к стандартам информационной безопасности США относится алгоритм шифрования DES, который был разработан в 1970-х годах, и который базируется на алгоритме DEA. Исходные идеи алгоритма ...

Скачать
49153
0
1

... не производится. Рис. 1.1. Классификация информационных систем Основываясь на степени автоматизации информационных процессов в системе управления фирмой, информационные системы делятся на ручные, автоматические и автоматизированные. Ручные ИС характеризуются отсутствием современных технических средств переработки информации и выполнением всех операций человеком. В автоматических ИС все ...

Скачать
58238
1
7

... средства защиты должны строиться с учетом их сопряжения с ее аппаратными и программными средствами. В целях перекрытия возможных каналов НСД к информации ЭВМ, кроме упомянутых, могут быть применены и другие методы и средства защиты. При использовании ЭВМ в многопользовательском режиме необходимо применить в ней программу контроля и разграничения доступа. Существует много подобных программ, ...

0 комментариев


Наверх