2.1.4.3. Индексация по реквизитам
В самом деле, реквизиты исторически были первыми. В бумажном делопроизводстве им отводится принципиальная роль. Делопроизводитель выделяет из документа реквизиты, служащие основой для информационного наполнения карточки документа, помещаемой в специальную картотеку.
Тем не менее, реквизиты не потеряли своей значимости и после появления систем управления документами. Современная тенденция мультимедийного представления данных делает затруднительным управление электронными документами с помощью средств текстовой индексации. Графические, звуковые и видео файлы не содержат информации, обеспечивающей поиск.
В таких случаях на помощь пользователям приходит реквизитная разметка документов. Суть её состоит в том, что в регистрационной карточке документа определяются поля, в которые вводится информация, определяющая свойства документа.
Набор системных реквизитов определяется в соответствии с назначением системы и по умолчанию должен включать позиции, определяемые действующими нормативными актами по делопроизводству. Для пользователя также важно иметь возможность модифицировать набор и свойства реквизитов, что, к сожалению, встречается не во всех коммерческих продуктах.
2.1.4.4. Построение запросов
В данном разделе будет рассмотрена организация построения запросов при полнотекстовом и реквизитном поиске электронных документов.
Система управления документами должна предоставлять пользователю возможность поиска с применением естественного языка. Абсолютно необходимой является также возможность формулировать запрос без учета различных форм слова (например, игнорируя падеж и число для существительных).
Здесь прослеживается схожесть с работой поисковых машин, работающих в Интернете. Действительно, современные поисковые машины (например, Yandex, Alta Vista и др.) дают возможность построения запросов, максимально приближенных к естественному языку и активно используют лингвистические технологии. Разница, тем не менее, есть: в Интернете пользователь стремится к относительно высокой релевантности поиска, а при работе с документами зачастую требуется абсолютная, 100% вероятность нахождения проиндексированного документа.
При полнотекстовом поиске пользователь, формируя запрос, вводит (либо выбирает из словаря) одно или несколько слов, предположительно содержащихся в искомых документах. Вводимые ключевые слова могут быть связаны логическим оператором ("И" – по умолчанию, "ИЛИ", "НЕ"), что позволяет уточнить условия поиска и уменьшить количество документов, выдаваемых системой в ответ на запрос. Кроме того, в запросе, как правило, может быть применен оператор "*", традиционно обозначающий подстановку любого символа.
В предыдущем разделе, обсуждая "нечеткий" поиск, было сказано о том, что пользователь, манипулируя параметрами полнотекстового поиска, может повысить вероятность отыскания документов, содержащих неисправленные ошибки. Это возможно, например, за счет задания диапазона поиска указанием сколь угодно разнесенных пар слов (чисел, дат). В этом случае система применяет так называемое лексикографическое сравнение, опираясь на свойства используемого алфавита.
Упомянем еще об одном "подводном камне" при построении запросов. Как иногда бывает, один из недостатков поискового механизма является продолжением его достоинств. Система может не найти документы, обрабатывая введенный вручную запрос, содержащий глаголы и слова, входящие в стоп-словарь. Пользователь, на основе испытаний, должен отыскать компромисс между поисковыми возможностями и объемом индексной базы.
При применении системы управления документами в организациях и компаниях с развитым делопроизводством чрезвычайно эффективным может оказаться реквизитный поиск. Как правило, в этих случаях речь идет об обработке большого количества одинаковых по структуре стандартных документов (приказов, актов, писем и др.). Полнотекстовый поиск, конечно же, применим и здесь, но не всегда эффективен: пользователь в результате запроса может получить весь ассортимент изданных приказов, различающихся номером, датой и, может быть, фамилией исполнителя. Отыскание нужного приказа в этих условиях может стать затруднительным.
Однако такой документ, как правило, элементарно может быть найден по значению соответствующего реквизита – регистрационного номера, даты или имени исполнителя (возможны варианты).
Незаменим реквизитный поиск и при работе с корпоративным электронным архивом, содержащим нетекстовые документы.
В целом, комплексное и творческое применение двух вышеописанных методов поиска обеспечивает выполнение ключевой задачи управления электронными документами.
2.1.5. Методы индексирования документов
Итак, на основе вышесказанного становится очевидным то, что успешный поиск документа во многом зависит от реализованного в системе метода индексирования документов. Рассмотрим основные положения индексирования.
Индексирование документа обычно организуется через автоматическую обработку его текста и заполнение метаданных. Автоматическая обработка – полнотекстовое индексирование – заключается в преобразовании текста документа в набор слов. Причем обычно для слов сохраняется их позиция в документе, для обеспечения возможности поиска по словосочетаниям. Существуют два принципиально различных метода такого индексирования с учетом применяемых в дальнейшем методов поиска:
бинарное индексирование – не зависит от языка документа по причине бинарной или словарной индексации;
морфологическое индексирование – производится с учетом морфологии и семантики языка.
При бинарном индексировании поиск ведется на основе алгоритмов “нечеткого поиска”, т.е. поиска с ошибками. В этом случае допускается неполное (с заданным количеством ошибок в начале, середине и конце слова) совпадение слов с шаблоном. При втором методе индексации слова преобразуются в словоформы с отсечением суффиксов и окончаний, что позволяет искать склонения и спряжения шаблонов.
Стандарта на метаданные на текущий момент не существует, но обычно они включают по крайней мере дату создания документа, его размер, возможно, тип и автора, краткое содержание – аннотацию и ключевые слова. Стоит отметить, что последние поля (аннотация и ключевые слова) на сегодняшний день заполняются вручную. При этом, если формат документа их предусматривает и автор их заполнил, то все неплохо, но практически всегда в реальных документах они отсутствуют. Поэтому существующие сегодня системы документооборота их обычно игнорируют по причине крайне дорогого и медленного их заполнения оператором, вводящим документы в систему.
... проекта. В этом случае редактор кода вызывается кнопкой View Code (Просмотр кода) панели инструментов окна Проводника. 2.3 Характеристика программы Данная программа написана на языке Visual Basic 6.0 и представляет собой 1 приложением, предназначенных выполнять все функции, которые требуются заданию. В конечный продукт входит 1 откомпилированное приложения, размер которого составляет ...
... ЛС (отбор жизненно важных ЛС, обеспечение их безопасности и качества, рациональное применение и т.д.) зафиксированы далеко не все из средств, имеющихся в арсенале управления, организации и экономики производства, и основное внимание сосредоточено на конечных результатах, а не на действиях по их достижению. Государственный комитет Основными целями деятельности Государственного комитета являются ...
0 комментариев