22. Текст сообщения должен быть отредактирован. Все спецсимволы в

 тексте должны быть заменены следующим образом:

- кавычки («») на кавычки (" ");

- номер (№) на номер (латинская буква N);

- длинное тире (¾) на тире (-);

- буква (ё) на букву (е);

- апостроф (') на твердый знак.

Характерными ошибками в текстовых файлах являются:

- орфографические ошибки в русских словах: пропуск букв(ы), лишняя(ие) буква(ы), замена букв(ы), латинская(ие) буква(ы);

- слова написаны слитно без пробела;

- в сложных словосочетаниях пропуск дефиса;

- после сокращения и знаков препинания отсутствует пробел;

- пропуск точки в сокращении и в единицах измерения;

- вместо запятой стоит точка и наоборот;

- вместо номера (латинской буквы N) стоит другой символ.

Параметры классификации включают в себя задание количества совпадений по названию статьи, по тексту статьи и по ключевым словам текста статьи. Здесь же задается порог нечеткого поиска в процентах от 40 до 100. Чем выше процент, тем четче поиск.

Рубрикатор тем представляет собой перечень рубрик на бумажных носителях и имеет следующую структуру:

- рубрики 1-го уровня;

- рубрики 2-го уровня, раскрывающие суть рубрик 1-го уровня;

- рубрики 3-го уровня, раскрывающие суть рубрик 2-го уровня;

- рубрики 4-го уровня, раскрывающие суть рубрик 3-го уровня.

Рубрикам 3-го и 4-го уровней соответствуют свои словари, представляющие собой перечень ключевых слов. Рубрикатор тем и словарь приведены в приложении Д.

Результаты классификации информационных сообщений СМИ содержат код рубрики, наименование рубрики, количество совпадений по названию, тексту, ключевым словам статьи, и окончательный результат

классификации.

Отчет по результатам классификации содержит данные по каждой статье: дату, выбранный файл, название статьи, ключевые слова статьи, автора, текст статьи, количество совпадений по названию, тексту и ключевым словам статьи.

Отчет по обработанным сообщениям СМИ содержит результаты классификации по каждому файлу и включает: дату, название статьи, ключевые слова статьи, автора, текст статьи и сопоставленные рубрики.

Структура выходных данных и документов представлена в приложении Е.

3.4 Описание организации информационной базы

 

3.4.1 Описание организации внутримашинной базы

Все сведения о сообщениях СМИ хранятся в базе данных, которая состоит из следующих таблиц:

- статьи;

- газета;

- регион;

- отрасль;

- справочник отраслей;

- рубрики;

- классификация;

- рубрикатор 1;

- рубрикатор 2;

- рубрикатор 3;

- рубрикатор 4;

- словарь рубрикатора 3;

- словарь рубрикатора 4.

Их описание представлено в таблицах 3.1 – 3.13 соответственно.

Таблица 3.1 – Таблица «Статьи»

Первичный ключ Атрибуты Тип данных Описание
Код газеты Числовой Длина 2 символа
Код региона Числовой Длина 8 символов
Код статьи Счетчик Последовательное значение
Уникальный ключ Наименование Текстовый Длина 150 символов
Ключевые слова Текстовый Длина 255 символов
Текст Поле MEMO
Дата Дата/время Краткий формат даты
Автор Текстовый Длина 150 символов
Файл Текстовый Длина 255 символов
Классифицировано Логический Истина/ложь

Таблица 3.2 – Таблица «Газета»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код газеты Числовой Длина 2 символа
Наименование Текстовый Длина 150 символов

Таблица 3.3 – Таблица «Регион»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код региона Числовой Длина 8 символов
Наименование региона Текстовый Длина 150 символов

Таблица 3.4 – Таблица «Отрасль»

Первичный ключ Атрибуты Тип данных Описание
Составной ключ Код статьи Числовой Длинное целое
Код отрасли Числовой Длинное целое

Таблица 3.5 – Таблица «Справочник отраслей»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код отрасли Числовой Длинное целое
Наименование Текстовый Длина 150 символов

Таблица 3.6 – Таблица «Рубрики»

Первичный ключ Атрибуты Тип данных Описание
Составной ключ Код рубрики Числовой Длинное целое
Код статьи Числовой Длинное целое
Уровень рубрики Числовой Длинное целое

Таблица 3.7 – Таблица «Классификация»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код статьи Числовой Длинное целое
Код рубрики Числовой Длинное целое
Уровень рубрики Числовой Длинное целое
По названию статьи Числовой Длинное целое
По ключевым словам Числовой Длинное целое
По тексту статьи Числовой Длинное целое
Результат Текстовый Длина 50 символов

Таблица 3.8 – Таблица «Рубрикатор 1»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код_1 Счетчик Последовательное значение
Индекс_1 Числовой Длинное целое
Наименование_1 Текстовый Длина 150 символов

Таблица 3.9 – Таблица «Рубрикатор 2»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код_2 Счетчик Последовательное значение
Индекс_2 Числовой Длинное целое
Наименование_2 Текстовый Длина 150 символов
Код_1 Числовой Длинное целое

Таблица 3.10 – Таблица «Рубрикатор 3»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код_3 Счетчик Последовательное значение
Индекс_3 Числовой Длинное целое
Наименование_3 Текстовый Длина 150 символов
Код_2 Числовой Длинное целое

Таблица 3.11 – Таблица «Рубрикатор 4»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код_4 Счетчик Последовательное значение
Индекс_4 Числовой Длинное целое
Наименование_4 Текстовый Длина 150 символов
Код_3 Числовой Длинное целое

Таблица 3.12 – Таблица «Словарь рубрикатора 3»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код_3 Числовой Длинное целое
Слова Текстовый Длина 255 символов

Таблица 3.13 – Таблица «Словарь рубрикатора 4»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код_4 Числовой Длинное целое
Слова Текстовый Длина 255 символов

Данные таблицы объединены в инфологическую модель, схема которой представлена на рисунке 3.4.1.


Рисунок 3.4.1 – Инфологическая модель базы

Иерархия заполнения таблиц базы представлена на рисунке 3.4.2.

Рисунок 3.4.2 – Иерархия заполнения таблиц базы



Информация о работе «Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации»
Раздел: Информатика, программирование
Количество знаков с пробелами: 73358
Количество таблиц: 15
Количество изображений: 7

Похожие работы

Скачать
344059
1
0

... мероприятия по новому месту работы, жительства; также в окружении носителей коммерческих секретов. Персонал оказывает су­щественное, а в большинстве случаев даже решающее влияние на информационную безопасность банка. В этой связи подбор кадров, их изучение, рас­становка и квалифицированная работа при увольнени­ях в значительной степени повышают устойчивость коммерческих предприятий к возможному ...

Скачать
83570
0
0

... ; однако, чтобы выполнять предназначенную ему роль, сам модуль также нуждается в защите, как собственными средствами, так и средствами окружения (например, операционной системы). Стандарт шифрования DES Также к стандартам информационной безопасности США относится алгоритм шифрования DES, который был разработан в 1970-х годах, и который базируется на алгоритме DEA. Исходные идеи алгоритма ...

Скачать
49153
0
1

... не производится. Рис. 1.1. Классификация информационных систем Основываясь на степени автоматизации информационных процессов в системе управления фирмой, информационные системы делятся на ручные, автоматические и автоматизированные. Ручные ИС характеризуются отсутствием современных технических средств переработки информации и выполнением всех операций человеком. В автоматических ИС все ...

Скачать
58238
1
7

... средства защиты должны строиться с учетом их сопряжения с ее аппаратными и программными средствами. В целях перекрытия возможных каналов НСД к информации ЭВМ, кроме упомянутых, могут быть применены и другие методы и средства защиты. При использовании ЭВМ в многопользовательском режиме необходимо применить в ней программу контроля и разграничения доступа. Существует много подобных программ, ...

0 комментариев


Наверх