2.5. Распознавание документа
После сегментации и установления порядка следования текстовых блоков выполняют последний этап работы – собственно распознавание. Обычно этот этап проходит автоматически.
Если документ напечатан достаточно стандартным шрифтом, который, к тому же, был хорошо воспроизведен при сканировании, то щелчка на кнопке «Распознать открытую страницу» достаточно, чтобы документ был распознан.
Если бумажный документ имеет недостаточную контрастность или необычный шрифт, процедура несколько усложняется. В этом случае программа может не справляться с распознаванием определенных символов и допускать однотипные ошибки.
В таких случаях для больших документов целесообразно сначала провести обучение программы в соответствии с особенностями данного документа. Это достаточно трудоемкий процесс, но он все же проще, чем ручной ввод многостраничного документа.
Настройку распознавания начинают с создания эталона, в котором сохраняются особенности данного документа. Для этого надо дать команду «Сервис®Редактор эталонов», щелкнуть в открывшемся диалоговом окне «Эталоны» на кнопке «Новый эталон» и ввести имя создаваемого эталона.
Для подключения эталона при распознавании, надо щелкнуть на раскрывающей кнопке рядом с кнопкой «Распознать открытую страницу» и выбрать пункт «Опции». В открывшемся диалоговом окне в группе «Обучение» следует выбрать только что созданный эталон. Если предполагается распознавание документа, соответствующего эталону, который был создан и настроен ранее, то выбирается не новый, а старый эталон.
Для «обучения» эталона следует установить флажок «Распознавание с обучением».
Режим распознавания в этом случае несколько изменяется. Всякий раз, когда программа не может уверенно распознать символ, она выдает диалоговое окно «Ручное обучение эталона». В верхней части этого диалогового окна приводится увеличенное изображение текущей распознаваемой строки. Текущий символ заключен в рамку.
В поле со списком «Символ» приведен символ, который, как полагает программа, находится в рамке.
Необходимо убедиться, что символ в поле указан верно и заменить его в случае необходимости. После этого надо щелкнуть на кнопке «Обучить».
Если неверно указаны границы символа, то кнопки «Сдвинуть влево» и «Сдвинуть вправо» позволяют поправить положение рамки.
Если верно расположить рамку не удается или в тексте встретился редкий символ, который правильно интерпретировать нельзя, следует щелкнуть на кнопке «Пропустить».
2.6. Особенности настройки программы FineReader
Как и большинство других приложений Windows, программу FineReader можно настроить в соответствии с требованиями конкретного пользователя. Все настройки осуществляются при помощи диалогового окна «Опции», которое открывают с помощью любой раскрывающей стрелки на панели инструментов «Scan&Read» или через меню «Сервис». Если использована панель инструментов, то диалоговое окно открывается на вкладке, соответствующей использованной кнопке панели инструментов.
Вкладка «Сканирование» служит для выбора и настройки сканера, а также для определения способа доступа к нему.
Вкладка «Сегментация» позволяет настраивать некоторые параметры для автоматической сегментации. Здесь задают параметры автоматического разбиения таблиц и настраивают режим автоматической сегментации многоколоночного текста.
Средства вкладки «Форматирование» позволяют задать способ форматирования распознанной страницы и выбрать используемые шрифты.
Вкладка «Распознавание» определяет параметры распознавания документа. Она позволяет задать язык документа и особенности исходного шрифта, а также настроить режим распознавания с обучением. Здесь же задается метод цветового выделения ненадежно распознанных символов.
Элементами управления вкладки «Проверка» задают метод проверки орфографии и способ пометки обнаруженных ошибок или сомнительных мест.
Вкладка «Установки» определяет общие настройки программы. Здесь задают язык интерфейса и настраивают используемые единицы измерения.
Флажки панели «Показывать» определяют способ представления окна программы и открытых документов.
Панель «Цвета» позволяет определить цвета различных элементов документа. В нижней части окна можно задать дополнительные параметры.
2.7. Распознавание бланков
Важной особенностью программы FineReader является возможность распознавания бланков. Бланк представляет собой отформатированный документ, в специальные поля которого вносятся данные. Типичными примерами бланков являются анкеты. Формат бланка может быть достаточно вычурным и не напоминать ни книжную, ни журнальную страницу.
Особенность работы с бланками заключается в том, что приходится иметь дело с объемным пакетом документов одинаковою формата, заполненных разными людьми. В таких документах различается содержание заполненных полей, а стандартные заголовки не представляют интереса. Данные, полученные из набора бланков, обычно подлежат последующей обработке, например статистической. Для обработки бланков предназначено специальное приложение FineReader Forms.
Для распознавания содержимого бланка необходимо предварительно создать шаблон формы. Для этого служит команда «Сервис®Шаблоны». В открывшемся диалоговом окне «Шаблоны» можно создать новый шаблон или открыть для редактирования уже имеющийся.
В этом случае программа открывает окно «Редактор шаблонов» и дополнительное диалоговое окно «Параметры». В этом окне размещают блоки, соответствующие полям бланка и для каждого блока указывают тип содержащегося в нем значения. Блоки, содержащие данные, задаваемые пользователем, помечаются как экспортируемые. Данные могут записываться в текстовый файл или заноситься в базу данных в качестве записей.
Созданный шаблон используется на этапе сегментации. Сегментация в данном случае состоит не в реальном разбиении страницы на блоки, а в наложении шаблона. Положение шаблона корректируется в соответствии с тем, насколько ровно был размещен бланк при сканировании.
Заключительный этап состоит в распознавании содержимого бланка. Результат представляется в виде формы, содержащей названия полей и их содержание. Последовательность распознанных бланков может быть сохранена в рамках единой базы данных для последующей обработки.
... Евразия»: 1.2.4 Обоснования необходимости использования вычислительной техники для решения задачи Основываясь на данных, полученных из библиотеки компании ООО «Кока-Кола ЭйчБиСи Евразия» из раздела «Организация деятельности подразделений» составим схему документооборота в отделе планирования. Схема представлена на рисунке Рис. 9. Рис. 9. Схема документооборота отдела планирования на ...
... активно работает целый ряд компаний, предлагающих как самостоятельные продукты, предназначенные для автоматизации отдельных управленческих, проектных и конструкторских задач, так и компании, поставляющие полнофункциональные интегрированные решения, способные охватить весь технологический цикл подготовки производства. Предлагаемые решения можно условно разделить на три больших класса. Легкие САПР ...
... функций, выстраивая описание. QBE-запрос Access легко транслирует в соответствующий SQL-запрос. Обратная операция тоже не составляет труда. Вообще для Access безразлично, с каким типом запроса работает пользователь. Запросы можно создавать с помощью Конструктора запросов. Он ускоряет проектирование нескольких специальных типов запросов. Формуляры Просмотр базы данных в виде таблицы в режиме ...
... работе в СКА - Бесплатно Обучение работе в сети Интернет (час) 10 Бесплатно 10 10 10 Прежде чем перейти к расчету показателей эффективности внедрения автоматизированной информационной системы в офисе туристской компании, сформулируем выводы по проектной части данной дипломной работы. 1. Задачей предварительного моделирования предстоящих этапов внедрения информационных технологий на ...
0 комментариев