2.4 Описание постановки задачи

Целью создания системы является автоматизация процесса классификации информационных сообщений СМИ. Комплекс задач, реализуемых разрабатываемой системой, должен обеспечивать удобную, быструю и качественную работу консультанта ОТОИ.

Основными задачами АИС «Классификатор» будут следующие:

- создание информационной базы для автоматизированного процесса классификации статей к той или иной категории;

- загрузка информационных сообщений СМИ в базу;

- обработка текстовой и цифровой информации с использованием метода нечеткого поиска;

- классификация информационных сообщений с использованием метода ранжирования;

- открытость структуры рубрикатора и словаря, то есть возможность оперативной их корректировки;

- формирование рекомендаций для принятия решений;

- формирование отчетов.

Входной информацией для реализации задач системы являются:

- информационные сообщения СМИ;

- параметры классификации;

- рубрикатор тем;

- словарь.

Выходными данными являются результаты классификации информационных сообщений СМИ.

Выходными документами являются:

- отчет по результатам классификации;

- отчет по обработанным сообщениям СМИ.


3 ИНФОРМАЦИОННОЕ ОБЕСПЕЧЕНИЕ

 

3.1 Перечень входных данных

Для разработки АИС «Классификатор» используются следующие входные данные:

- информационные сообщения СМИ;

- параметры классификации;

- рубрикатор тем;

- словарь.

3.2 Перечень выходных данных и документов

Выходными данными будут результаты классификации информационных сообщений СМИ.

Выходными документами будут:

- отчет по результатам классификации;

- отчет по обработанным сообщениям СМИ.

3.3 Описание информационного обеспечения АИС «Классификатор»

 

3.3.1 Описание структуры входных информационных сообщений и выходных данных и документов

Информационные сообщения СМИ подготавливаются в виде текстовых файлов.

Текстовые файлы формируются в формате MS DOS в кодировке ASCII.

Имя текстового файла состоит из собственного имени, занимающего 6 знакомест, и 3 символов расширения. Порядок образования имени текстового файла имеет следующую структуру:

ГГЧЧММ.smi,

где ГГ - наименование города, из которого пришло информационное сообщение (2 знакоместа);

ЧЧ - число месяца (2 знакоместа), за которое подготовлено информационное сообщение;

ММ - месяц, в котором подготовлено информационное сообщение;

smi – расширение информационного сообщения СМИ.

3.3.2 Описание структуры информационной части сообщения СМИ

Текстовый файл сформирован без разбиения на страницы с сохранением оригинальной структуры публикаций (абзацы, красные строки и др.).

В состав текстового файла может входить несколько информационных сообщений.

При формировании текстового файла с 1-ой позиции на отдельной строке без пропуска строк введена информационная часть сообщения.

Информационная часть сообщения имеет следующую структуру:

АО ХХХХХХХ

==/СМИ

01/ХХХХ

02/ДДММГГ

03/ХХХХХХХХ

04/ХХХХХХХХ

05/ХХ

06/ключевые слова и текст статьи

07/наименование статьи

08/автор статьи

===

где АО ХХХХХХХ – адрес отправителя;

АО - заглавные буквы русского алфавита;

ХХХХХХХ - семизначный код отправителя.

Между буквами (АО) и кодом допускается один пробел.

==/ - признак начала информационной части (два символа "равно" и слеш - справа налево);

СМИ - принадлежность сообщения СМИ.

Каждое информационное сообщение отделяется этим набором символов.

Далее заполняются атрибуты с 1-й позиции по 8-ю:

01/ - четырехзначный код источника информации (код или наименование газеты);

02/ - дата публикации в формате ДДММГГ;

03/ - шести- или восьмизначный код региона;

04/ - наименование населенного пункта (или его 8-разрядный код), о котором пи­шется в статье газеты.

Атрибут заполняется заглавными буквами без указаний г., п., пгт. Под населенным пунктом подразумевается город, село, но не район области, не район города.

05/ - двузначный код отрасли, о которой идет речь в соответствии с классификатором отраслей. Если в статье газеты затрагивается нескольких отраслей, то код каждой из них дается отдельной строкой с указателем - 05/;

06/ - ключевые слова и текст статьи.

Первая строка атрибута – ключевые слова по тематике, отраженной в статье. Ключевые слова отделяются друг от друга точкой. Например:

Бюджет. Задолженность.

Содержание статьи, отражающее существо затронутой проблемы. Оно имеет неограниченную длину, но с учетом ограничений объема сообщений в сетях. Продолжение статьи во второй и последующих строках начинается с 4-й позиции, длина строки должна быть не более 55 знаков.

07/ - наименование статьи. Заносится в атрибут полностью, как в оригинале статьи газеты;

08/ - автор статьи.

Все значения атрибутов заносятся сразу же после слеша без пропуска пустых знакомест.

=== - признак завершения информационного сообщения (три символа "равно").

Пример заполнения информационной части сообщения приведен в приложении В.

3.3.3 Основные требования, предъявляемые к подготовке сообщений СМИ в части орфографии

К подготовке информационных сообщений СМИ предъявляются следующие требования:

1. Текст сообщения подготавливается в виде текстового файла.

2. Информация в текстовом файле размещается в одну колонку и не форматируется.

3. Текстовый файл формируется без разбиения на страницы с сохранением оригинальной структуры публикаций (абзацы, красные строки и др.).

4. Информация в текстовый файл вводится прописными и строчными буквами как в статье газеты.

5. В текстовый файл вводятся наименование рубрики, подзаголовок (если они присутствуют) и текст статьи отдельными абзацами.

6. Абзацы, перечень пунктов и т.п. в тексте не отделяются "пустой" строкой.

7. Русские слова текста не должны содержать букв латинского алфавита; римские цифры - русских букв.

8. Текст не должен содержать незаконченных предложений и обрывов в словах.

9. В текстовый файл не заносятся:

- рекламные вставки, фотографии, таблицы, графики, диаграммы и другие графические материалы;

- название города, стоящее в начале или в конце текста статьи, так как оно заносится в атрибут 04/;

- спецсимволы, отсутствующие на клавиатуре ПЭВМ.

Если в конце текста статьи имеется ссылка на источник, из которого напечатан текст, то она заносится на первой строке перед текстом. Например:

По материалам российского радио.

10. Если к статье газеты дается аннотация или комментарий, выделенные

другим шрифтом, заключенные или не заключенные в рамку, то они вводятся после текста статьи в обычном шрифте без рамки, отделяя словами:

Комментарий (фамилия автора).

11. Фамилия от инициалов отделяется пробелом.

12. Слова текста, напечатанные в разрядку (через пробел) вводятся слитно. Ключевые слова в тексте должны быть полными без разрывов и сокращения.

13. Аббревиатуры вводятся без точек и разрядки.

14. Сокращения типа: т.д., т.п., с.г., т.г. вводятся без разрядки.

15. В числах между цифрами не должно быть пробелов.

16. Римские цифры вводить на латинском регистре большими буквами. Например: XXIV.

17. Спецсимволы, встречающиеся в математических формулах, должны быть заменены на буквы русского или латинского алфавита.

18. Химические элементы, единицы измерения, математические выражения и прочая информация вводится в текстовый файл в соответствии с таблицей значений (приложение Г).

19. Примечание (сноска) вводится в текстовый файл с красной строки после текста, отделяется чертой. Например:

_________________

(прим.2) - ...

*) ....

20. Если в газете под одним наименованием несколько сообщений из разных регионов, то каждое сообщение оформляется отдельным текстовым файлом.

21. Если статья газеты имеет продолжение в следующем номере газеты, то ее текстовый файл готовится обычным способом, а в конце текста с красной строки вводится: «Продолжение в N ». Если статья является продолжением предыдущего номера газеты, то в начале текста вводится: «Начало в N ».


Информация о работе «Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации»
Раздел: Информатика, программирование
Количество знаков с пробелами: 73358
Количество таблиц: 15
Количество изображений: 7

Похожие работы

Скачать
344059
1
0

... мероприятия по новому месту работы, жительства; также в окружении носителей коммерческих секретов. Персонал оказывает су­щественное, а в большинстве случаев даже решающее влияние на информационную безопасность банка. В этой связи подбор кадров, их изучение, рас­становка и квалифицированная работа при увольнени­ях в значительной степени повышают устойчивость коммерческих предприятий к возможному ...

Скачать
83570
0
0

... ; однако, чтобы выполнять предназначенную ему роль, сам модуль также нуждается в защите, как собственными средствами, так и средствами окружения (например, операционной системы). Стандарт шифрования DES Также к стандартам информационной безопасности США относится алгоритм шифрования DES, который был разработан в 1970-х годах, и который базируется на алгоритме DEA. Исходные идеи алгоритма ...

Скачать
49153
0
1

... не производится. Рис. 1.1. Классификация информационных систем Основываясь на степени автоматизации информационных процессов в системе управления фирмой, информационные системы делятся на ручные, автоматические и автоматизированные. Ручные ИС характеризуются отсутствием современных технических средств переработки информации и выполнением всех операций человеком. В автоматических ИС все ...

Скачать
58238
1
7

... средства защиты должны строиться с учетом их сопряжения с ее аппаратными и программными средствами. В целях перекрытия возможных каналов НСД к информации ЭВМ, кроме упомянутых, могут быть применены и другие методы и средства защиты. При использовании ЭВМ в многопользовательском режиме необходимо применить в ней программу контроля и разграничения доступа. Существует много подобных программ, ...

0 комментариев


Наверх