22. Текст сообщения должен быть отредактирован. Все спецсимволы в
тексте должны быть заменены следующим образом:
- кавычки («») на кавычки (" ");
- номер (№) на номер (латинская буква N);
- длинное тире (¾) на тире (-);
- буква (ё) на букву (е);
- апостроф (') на твердый знак.
Характерными ошибками в текстовых файлах являются:
- орфографические ошибки в русских словах: пропуск букв(ы), лишняя(ие) буква(ы), замена букв(ы), латинская(ие) буква(ы);
- слова написаны слитно без пробела;
- в сложных словосочетаниях пропуск дефиса;
- после сокращения и знаков препинания отсутствует пробел;
- пропуск точки в сокращении и в единицах измерения;
- вместо запятой стоит точка и наоборот;
- вместо номера (латинской буквы N) стоит другой символ.
Параметры классификации включают в себя задание количества совпадений по названию статьи, по тексту статьи и по ключевым словам текста статьи. Здесь же задается порог нечеткого поиска в процентах от 40 до 100. Чем выше процент, тем четче поиск.
Рубрикатор тем представляет собой перечень рубрик на бумажных носителях и имеет следующую структуру:
- рубрики 1-го уровня;
- рубрики 2-го уровня, раскрывающие суть рубрик 1-го уровня;
- рубрики 3-го уровня, раскрывающие суть рубрик 2-го уровня;
- рубрики 4-го уровня, раскрывающие суть рубрик 3-го уровня.
Рубрикам 3-го и 4-го уровней соответствуют свои словари, представляющие собой перечень ключевых слов. Рубрикатор тем и словарь приведены в приложении Д.
Результаты классификации информационных сообщений СМИ содержат код рубрики, наименование рубрики, количество совпадений по названию, тексту, ключевым словам статьи, и окончательный результат
классификации.
Отчет по результатам классификации содержит данные по каждой статье: дату, выбранный файл, название статьи, ключевые слова статьи, автора, текст статьи, количество совпадений по названию, тексту и ключевым словам статьи.
Отчет по обработанным сообщениям СМИ содержит результаты классификации по каждому файлу и включает: дату, название статьи, ключевые слова статьи, автора, текст статьи и сопоставленные рубрики.
Структура выходных данных и документов представлена в приложении Е.
3.4 Описание организации информационной базы
3.4.1 Описание организации внутримашинной базы
Все сведения о сообщениях СМИ хранятся в базе данных, которая состоит из следующих таблиц:
- статьи;
- газета;
- регион;
- отрасль;
- справочник отраслей;
- рубрики;
- классификация;
- рубрикатор 1;
- рубрикатор 2;
- рубрикатор 3;
- рубрикатор 4;
- словарь рубрикатора 3;
- словарь рубрикатора 4.
Их описание представлено в таблицах 3.1 – 3.13 соответственно.
Таблица 3.1 – Таблица «Статьи»
Первичный ключ | Атрибуты | Тип данных | Описание |
Код газеты | Числовой | Длина 2 символа | |
Код региона | Числовой | Длина 8 символов | |
Код статьи | Счетчик | Последовательное значение | |
Уникальный ключ | Наименование | Текстовый | Длина 150 символов |
Ключевые слова | Текстовый | Длина 255 символов | |
Текст | Поле MEMO | ||
Дата | Дата/время | Краткий формат даты | |
Автор | Текстовый | Длина 150 символов | |
Файл | Текстовый | Длина 255 символов | |
Классифицировано | Логический | Истина/ложь |
Таблица 3.2 – Таблица «Газета»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код газеты | Числовой | Длина 2 символа |
Наименование | Текстовый | Длина 150 символов |
Таблица 3.3 – Таблица «Регион»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код региона | Числовой | Длина 8 символов |
Наименование региона | Текстовый | Длина 150 символов |
Таблица 3.4 – Таблица «Отрасль»
Первичный ключ | Атрибуты | Тип данных | Описание |
Составной ключ | Код статьи | Числовой | Длинное целое |
Код отрасли | Числовой | Длинное целое |
Таблица 3.5 – Таблица «Справочник отраслей»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код отрасли | Числовой | Длинное целое |
Наименование | Текстовый | Длина 150 символов |
Таблица 3.6 – Таблица «Рубрики»
Первичный ключ | Атрибуты | Тип данных | Описание |
Составной ключ | Код рубрики | Числовой | Длинное целое |
Код статьи | Числовой | Длинное целое | |
Уровень рубрики | Числовой | Длинное целое |
Таблица 3.7 – Таблица «Классификация»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код статьи | Числовой | Длинное целое |
Код рубрики | Числовой | Длинное целое | |
Уровень рубрики | Числовой | Длинное целое | |
По названию статьи | Числовой | Длинное целое | |
По ключевым словам | Числовой | Длинное целое | |
По тексту статьи | Числовой | Длинное целое | |
Результат | Текстовый | Длина 50 символов |
Таблица 3.8 – Таблица «Рубрикатор 1»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код_1 | Счетчик | Последовательное значение |
Индекс_1 | Числовой | Длинное целое | |
Наименование_1 | Текстовый | Длина 150 символов |
Таблица 3.9 – Таблица «Рубрикатор 2»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код_2 | Счетчик | Последовательное значение |
Индекс_2 | Числовой | Длинное целое | |
Наименование_2 | Текстовый | Длина 150 символов | |
Код_1 | Числовой | Длинное целое |
Таблица 3.10 – Таблица «Рубрикатор 3»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код_3 | Счетчик | Последовательное значение |
Индекс_3 | Числовой | Длинное целое | |
Наименование_3 | Текстовый | Длина 150 символов | |
Код_2 | Числовой | Длинное целое |
Таблица 3.11 – Таблица «Рубрикатор 4»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код_4 | Счетчик | Последовательное значение |
Индекс_4 | Числовой | Длинное целое | |
Наименование_4 | Текстовый | Длина 150 символов | |
Код_3 | Числовой | Длинное целое |
Таблица 3.12 – Таблица «Словарь рубрикатора 3»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код_3 | Числовой | Длинное целое |
Слова | Текстовый | Длина 255 символов |
Таблица 3.13 – Таблица «Словарь рубрикатора 4»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код_4 | Числовой | Длинное целое |
Слова | Текстовый | Длина 255 символов |
Данные таблицы объединены в инфологическую модель, схема которой представлена на рисунке 3.4.1.
Рисунок 3.4.1 – Инфологическая модель базы
Иерархия заполнения таблиц базы представлена на рисунке 3.4.2.
Рисунок 3.4.2 – Иерархия заполнения таблиц базы
... мероприятия по новому месту работы, жительства; также в окружении носителей коммерческих секретов. Персонал оказывает существенное, а в большинстве случаев даже решающее влияние на информационную безопасность банка. В этой связи подбор кадров, их изучение, расстановка и квалифицированная работа при увольнениях в значительной степени повышают устойчивость коммерческих предприятий к возможному ...
... ; однако, чтобы выполнять предназначенную ему роль, сам модуль также нуждается в защите, как собственными средствами, так и средствами окружения (например, операционной системы). Стандарт шифрования DES Также к стандартам информационной безопасности США относится алгоритм шифрования DES, который был разработан в 1970-х годах, и который базируется на алгоритме DEA. Исходные идеи алгоритма ...
... не производится. Рис. 1.1. Классификация информационных систем Основываясь на степени автоматизации информационных процессов в системе управления фирмой, информационные системы делятся на ручные, автоматические и автоматизированные. Ручные ИС характеризуются отсутствием современных технических средств переработки информации и выполнением всех операций человеком. В автоматических ИС все ...
... средства защиты должны строиться с учетом их сопряжения с ее аппаратными и программными средствами. В целях перекрытия возможных каналов НСД к информации ЭВМ, кроме упомянутых, могут быть применены и другие методы и средства защиты. При использовании ЭВМ в многопользовательском режиме необходимо применить в ней программу контроля и разграничения доступа. Существует много подобных программ, ...
0 комментариев