2.4 Описание постановки задачи
Целью создания системы является автоматизация процесса классификации информационных сообщений СМИ. Комплекс задач, реализуемых разрабатываемой системой, должен обеспечивать удобную, быструю и качественную работу консультанта ОТОИ.
Основными задачами АИС «Классификатор» будут следующие:
- создание информационной базы для автоматизированного процесса классификации статей к той или иной категории;
- загрузка информационных сообщений СМИ в базу;
- обработка текстовой и цифровой информации с использованием метода нечеткого поиска;
- классификация информационных сообщений с использованием метода ранжирования;
- открытость структуры рубрикатора и словаря, то есть возможность оперативной их корректировки;
- формирование рекомендаций для принятия решений;
- формирование отчетов.
Входной информацией для реализации задач системы являются:
- информационные сообщения СМИ;
- параметры классификации;
- рубрикатор тем;
- словарь.
Выходными данными являются результаты классификации информационных сообщений СМИ.
Выходными документами являются:
- отчет по результатам классификации;
- отчет по обработанным сообщениям СМИ.
3 ИНФОРМАЦИОННОЕ ОБЕСПЕЧЕНИЕ
3.1 Перечень входных данных
Для разработки АИС «Классификатор» используются следующие входные данные:
- информационные сообщения СМИ;
- параметры классификации;
- рубрикатор тем;
- словарь.
3.2 Перечень выходных данных и документов
Выходными данными будут результаты классификации информационных сообщений СМИ.
Выходными документами будут:
- отчет по результатам классификации;
- отчет по обработанным сообщениям СМИ.
3.3 Описание информационного обеспечения АИС «Классификатор»
3.3.1 Описание структуры входных информационных сообщений и выходных данных и документов
Информационные сообщения СМИ подготавливаются в виде текстовых файлов.
Текстовые файлы формируются в формате MS DOS в кодировке ASCII.
Имя текстового файла состоит из собственного имени, занимающего 6 знакомест, и 3 символов расширения. Порядок образования имени текстового файла имеет следующую структуру:
ГГЧЧММ.smi,
где ГГ - наименование города, из которого пришло информационное сообщение (2 знакоместа);
ЧЧ - число месяца (2 знакоместа), за которое подготовлено информационное сообщение;
ММ - месяц, в котором подготовлено информационное сообщение;
smi – расширение информационного сообщения СМИ.
3.3.2 Описание структуры информационной части сообщения СМИ
Текстовый файл сформирован без разбиения на страницы с сохранением оригинальной структуры публикаций (абзацы, красные строки и др.).
В состав текстового файла может входить несколько информационных сообщений.
При формировании текстового файла с 1-ой позиции на отдельной строке без пропуска строк введена информационная часть сообщения.
Информационная часть сообщения имеет следующую структуру:
АО ХХХХХХХ
==/СМИ
01/ХХХХ
02/ДДММГГ
03/ХХХХХХХХ
04/ХХХХХХХХ
05/ХХ
06/ключевые слова и текст статьи
07/наименование статьи
08/автор статьи
===
где АО ХХХХХХХ – адрес отправителя;
АО - заглавные буквы русского алфавита;
ХХХХХХХ - семизначный код отправителя.
Между буквами (АО) и кодом допускается один пробел.
==/ - признак начала информационной части (два символа "равно" и слеш - справа налево);
СМИ - принадлежность сообщения СМИ.
Каждое информационное сообщение отделяется этим набором символов.
Далее заполняются атрибуты с 1-й позиции по 8-ю:
01/ - четырехзначный код источника информации (код или наименование газеты);
02/ - дата публикации в формате ДДММГГ;
03/ - шести- или восьмизначный код региона;
04/ - наименование населенного пункта (или его 8-разрядный код), о котором пишется в статье газеты.
Атрибут заполняется заглавными буквами без указаний г., п., пгт. Под населенным пунктом подразумевается город, село, но не район области, не район города.
05/ - двузначный код отрасли, о которой идет речь в соответствии с классификатором отраслей. Если в статье газеты затрагивается нескольких отраслей, то код каждой из них дается отдельной строкой с указателем - 05/;
06/ - ключевые слова и текст статьи.
Первая строка атрибута – ключевые слова по тематике, отраженной в статье. Ключевые слова отделяются друг от друга точкой. Например:
Бюджет. Задолженность.
Содержание статьи, отражающее существо затронутой проблемы. Оно имеет неограниченную длину, но с учетом ограничений объема сообщений в сетях. Продолжение статьи во второй и последующих строках начинается с 4-й позиции, длина строки должна быть не более 55 знаков.
07/ - наименование статьи. Заносится в атрибут полностью, как в оригинале статьи газеты;
08/ - автор статьи.
Все значения атрибутов заносятся сразу же после слеша без пропуска пустых знакомест.
=== - признак завершения информационного сообщения (три символа "равно").
Пример заполнения информационной части сообщения приведен в приложении В.
3.3.3 Основные требования, предъявляемые к подготовке сообщений СМИ в части орфографии
К подготовке информационных сообщений СМИ предъявляются следующие требования:
1. Текст сообщения подготавливается в виде текстового файла.
2. Информация в текстовом файле размещается в одну колонку и не форматируется.
3. Текстовый файл формируется без разбиения на страницы с сохранением оригинальной структуры публикаций (абзацы, красные строки и др.).
4. Информация в текстовый файл вводится прописными и строчными буквами как в статье газеты.
5. В текстовый файл вводятся наименование рубрики, подзаголовок (если они присутствуют) и текст статьи отдельными абзацами.
6. Абзацы, перечень пунктов и т.п. в тексте не отделяются "пустой" строкой.
7. Русские слова текста не должны содержать букв латинского алфавита; римские цифры - русских букв.
8. Текст не должен содержать незаконченных предложений и обрывов в словах.
9. В текстовый файл не заносятся:
- рекламные вставки, фотографии, таблицы, графики, диаграммы и другие графические материалы;
- название города, стоящее в начале или в конце текста статьи, так как оно заносится в атрибут 04/;
- спецсимволы, отсутствующие на клавиатуре ПЭВМ.
Если в конце текста статьи имеется ссылка на источник, из которого напечатан текст, то она заносится на первой строке перед текстом. Например:
По материалам российского радио.
10. Если к статье газеты дается аннотация или комментарий, выделенные
другим шрифтом, заключенные или не заключенные в рамку, то они вводятся после текста статьи в обычном шрифте без рамки, отделяя словами:
Комментарий (фамилия автора).
11. Фамилия от инициалов отделяется пробелом.
12. Слова текста, напечатанные в разрядку (через пробел) вводятся слитно. Ключевые слова в тексте должны быть полными без разрывов и сокращения.
13. Аббревиатуры вводятся без точек и разрядки.
14. Сокращения типа: т.д., т.п., с.г., т.г. вводятся без разрядки.
15. В числах между цифрами не должно быть пробелов.
16. Римские цифры вводить на латинском регистре большими буквами. Например: XXIV.
17. Спецсимволы, встречающиеся в математических формулах, должны быть заменены на буквы русского или латинского алфавита.
18. Химические элементы, единицы измерения, математические выражения и прочая информация вводится в текстовый файл в соответствии с таблицей значений (приложение Г).
19. Примечание (сноска) вводится в текстовый файл с красной строки после текста, отделяется чертой. Например:
_________________
(прим.2) - ...
*) ....
20. Если в газете под одним наименованием несколько сообщений из разных регионов, то каждое сообщение оформляется отдельным текстовым файлом.
21. Если статья газеты имеет продолжение в следующем номере газеты, то ее текстовый файл готовится обычным способом, а в конце текста с красной строки вводится: «Продолжение в N ». Если статья является продолжением предыдущего номера газеты, то в начале текста вводится: «Начало в N ».
... мероприятия по новому месту работы, жительства; также в окружении носителей коммерческих секретов. Персонал оказывает существенное, а в большинстве случаев даже решающее влияние на информационную безопасность банка. В этой связи подбор кадров, их изучение, расстановка и квалифицированная работа при увольнениях в значительной степени повышают устойчивость коммерческих предприятий к возможному ...
... ; однако, чтобы выполнять предназначенную ему роль, сам модуль также нуждается в защите, как собственными средствами, так и средствами окружения (например, операционной системы). Стандарт шифрования DES Также к стандартам информационной безопасности США относится алгоритм шифрования DES, который был разработан в 1970-х годах, и который базируется на алгоритме DEA. Исходные идеи алгоритма ...
... не производится. Рис. 1.1. Классификация информационных систем Основываясь на степени автоматизации информационных процессов в системе управления фирмой, информационные системы делятся на ручные, автоматические и автоматизированные. Ручные ИС характеризуются отсутствием современных технических средств переработки информации и выполнением всех операций человеком. В автоматических ИС все ...
... средства защиты должны строиться с учетом их сопряжения с ее аппаратными и программными средствами. В целях перекрытия возможных каналов НСД к информации ЭВМ, кроме упомянутых, могут быть применены и другие методы и средства защиты. При использовании ЭВМ в многопользовательском режиме необходимо применить в ней программу контроля и разграничения доступа. Существует много подобных программ, ...
0 комментариев