1 ОБЗОР И АНАЛИЗ СУЩЕСТВУЮЩИХ СИСТЕМ КЛАССИФИКАЦИИ ИНФОРМАЦИИ
В настоящее время задача автоматического разнесения информационного потока по тематическим рубрикам является одной из важнейшей в области обработки информации в системах электронного документооборота. Главное внимание при организации работ по управлению информацией сосредоточено на проблему автоматизации процессов классификации информационных сообщений СМИ. Наиболее актуальными являются задачи загрузки информационных сообщений в информационную базу, обработки текстовой и цифровой информации, переход к структурированным сообщениям, оперативная корректировка структуры рубрикатора и словаря.
В настоящее время в отделах документооборота началось активное использование программных продуктов для автоматизации процесса классификации.
Наибольшее распространение в отделах документооборота получили программные продукты: поисково-аналитическая система «Галактика-Зум», система «Термин-5», информационно-аналитическая система «Астарта», информационно-аналитическая система INLINE Technologies.
Каждый из вариантов имеет свои преимущества и недостатки. Наиболее распространенные зарубежные системы хорошо отлажены, но имеют гораздо более высокую стоимость, недостаточно приспособлены к принятым в организациях технологиям, стандартам и форматам, что требует их серьезной и дорогостоящей адаптации.
Отставание отечественных систем объясняется в основном тем, что при отсутствии значительных финансовых инвестиций российские системы используют в качестве базового программного обеспечения бесплатные или дешевые пакеты программ, которые не предназначены для создания высокотехнологичных систем.
Учитывая сложившуюся ситуацию, целесообразно осуществить анализ отечественных систем с целью доработки их до уровня полной конкурентоспособности.
Рассмотрим ряд автоматизированных систем по процессу классификации информации.
Поисково-аналитическая система «Галактика-Зум» предназначена для компаний и организаций, которым необходимо автоматизировать процесс классификации.
Программа предоставляет следующие возможности:
- определение «информационного портрета» запрашиваемой темы, то есть набор упорядоченных по значимости ключевых слов и словосочетаний, характерный именно для данной выборки;
- решение задачи ранжирования документов выборки по значимости – по наибольшему соответствию инфопортрету выборки количества значимых тем и их ранга в рассматриваемом документе;
- корректирование полученных инфопортретов;
- сравнение инфопортрета документа с инфопортретами рубрик, с отсечение малохарактерных инфопортретов.
Информационно-аналитическая система «Астарта» предназначена для компаний и организаций, которым необходимо автоматизировать и кардинальным образом повысить эффективность сбора, обработки и анализа неструктурированной информации, получаемой из Интернета, печатных материалов, СМИ и т.д. Программное решение базируется на технологии «Евфрат» и предназначено для сбора, обработки и анализа неструктурированной информации, получаемой из Интернета, печатных материалов СМИ и других источников.
К недостаткам данных систем можно отнести следующее:
- неудобный для работы интерфейс;
- отсутствие достаточно полного словаря для процесса классификации информационных сообщений;
- отсутствие необходимых для эффективной работы функций формирования рекомендаций для принятия решений и отчетов.
Таким образом, учитывая возможности и недостатки существующих систем, необходимо разработать систему, которая предоставляла бы следующие возможности:
- создание информационной базы для автоматизированного процесса классификации статей по категориям рубрикатора;
- загрузка информационных сообщений СМИ в информационную базу;
- обработка текстовой и цифровой информации с использованием метода нечеткого поиска;
- классификация информационных сообщений с использованием метода ранжирования;
- возможность оперативной корректировки структуры рубрикатора и словаря;
- формирование рекомендаций для принятия решений;
- формирование отчетов.
2 ОБЩЕСИСТЕМНЫЕ РЕШЕНИЯ
2.1 Пояснительная записка к техническому проекту
Полное наименование системы: Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации (СМИ). Условное обозначение: АИС «Классификатор».
Заказчик: Управление информационных и аналитических технологий аппарата администрации Тульской области (УИАТ ТО), отдел технологий отображения информации (ОТОИ).
Разработчик: студентка Тульского государственного университета факультета Экономики и права кафедры Автоматизированных информационных и управляющих систем группы 730211 Жиренкова Ирина Юрьевна.
Плановые сроки начала и окончания работы по созданию системы:
- начало работ: 1 сентября 2006 года;
- окончание работ: 1 декабря 2006 года.
Разрабатываемая АИС «Классификатор» предназначена для обеспечения более удобной, эффективной и качественной работы консультанта ОТОИ, связанной с обработкой информации и присвоение ей классифицирующих атрибутов.
Целью создания системы является автоматизация процесса классификации информационных сообщений СМИ. Система позволит освободить человека от необходимости рутинной работы по отслеживанию необходимой информации, принадлежащей к той или иной рубрике, а также сократить время на их обработку.
АИС «Классификатор» включает в себя следующие подсистемы:
1) подсистема ведения информационной базы;
2) подсистема обработки информационных сообщений СМИ;
3) подсистема настройки параметров;
4) подсистема классификации информационных сообщений СМИ.
Подсистема ведения информационной базы должна выполнять следующие функции:
1) формирование информационной базы;
2) добавление записи;
3) изменение записи;
4) удаление записи;
5) сохранение записи.
Подсистема обработки информационных сообщений СМИ должна выполнять следующие функции:
1) открытие списка текстовых файлов в каталоге;
2) открытие файла;
3) считывание строки из файла;
4) запись информационных сообщений СМИ в базу;
5) закрытие файла.
Подсистема настройки параметров должна выполнять следующие функции:
1) определение каталога с файлами;
2) настройка расширения файлов с исходными данными;
3) настройка параметров классификации.
Подсистема классификации информационных сообщений СМИ должна выполнять следующие функции:
1) поиск записей по различным ключам словаря с помощью метода нечеткого поиска;
2) классификация сообщений по результатам поиска;
3) формирование рекомендаций для принятия решений;
4) формирование отчетов.
Информационное обеспечение организовано в соответствии с принципами развития, совместимости, стандартизации и унификации.
Входными данными являются:
- информационные сообщения СМИ;
- параметры классификации;
- рубрикатор тем;
- словарь.
Выходными данными являются результаты классификации информационных сообщений СМИ.
Выходными документами являются:
- отчет по результатам классификации;
- отчет по обработанным сообщениям СМИ.
АИС «Классификатор» была разработана в среде программирования Borland Delphi 7.0, основным инструментом которого является Object Pascal. На магнитных носителях сведения о сообщениях хранятся в виде базы, которая разработана в системе MS Access. Сами информационные сообщения хранятся в файлах на жестком диске. Программное обеспечение реализовано с помощью модульного принципа и функционирует независимо от аппаратной части.
Для функционирования АИС «Классификатор» разработан комплекс технических средств, включающий в себя ПЭВМ на базе процессора Intel Celeron с тактовой частотой 2 ГГц, клавиатуру, мышь, монитор SVGA, 2 Гбайт на жестком диске, 512 Мбайт оперативной памяти (RAM), операционную систему Windows Me, 2000, XP.
Для ввода системы в эксплуатацию необходима персональная ЭВМ с набором периферийных устройств рабочего места. Также необходимо провести ознакомление консультанта ОТОИ с принципами работы данной системы.
... мероприятия по новому месту работы, жительства; также в окружении носителей коммерческих секретов. Персонал оказывает существенное, а в большинстве случаев даже решающее влияние на информационную безопасность банка. В этой связи подбор кадров, их изучение, расстановка и квалифицированная работа при увольнениях в значительной степени повышают устойчивость коммерческих предприятий к возможному ...
... ; однако, чтобы выполнять предназначенную ему роль, сам модуль также нуждается в защите, как собственными средствами, так и средствами окружения (например, операционной системы). Стандарт шифрования DES Также к стандартам информационной безопасности США относится алгоритм шифрования DES, который был разработан в 1970-х годах, и который базируется на алгоритме DEA. Исходные идеи алгоритма ...
... не производится. Рис. 1.1. Классификация информационных систем Основываясь на степени автоматизации информационных процессов в системе управления фирмой, информационные системы делятся на ручные, автоматические и автоматизированные. Ручные ИС характеризуются отсутствием современных технических средств переработки информации и выполнением всех операций человеком. В автоматических ИС все ...
... средства защиты должны строиться с учетом их сопряжения с ее аппаратными и программными средствами. В целях перекрытия возможных каналов НСД к информации ЭВМ, кроме упомянутых, могут быть применены и другие методы и средства защиты. При использовании ЭВМ в многопользовательском режиме необходимо применить в ней программу контроля и разграничения доступа. Существует много подобных программ, ...
0 комментариев