3. Проектування процесу введення паперових документів

 

Одним з основних завдань, пов'язаних із скороченням витрат на обробку даних, є автоматизація масового введення паперових первинних документів, завантаження даних в інформаційну базу. Основна відмінність масового введення документів від простого сканування полягає в тому, що обробляється велика кількість однотипних документів. В якості прикладів додатків цієї технології в конкретних предметних областях можна привести систему введення і обробки «Платіжних доручень» у банку, систему введення «Податкових декларацій», систему введення і перевірки бухгалтерських документів в пенсійному фонді.

Для організації обробки великої кількості паперових документів і перекладу їх в електронну форму необхідно розробити систему масового введення документів (СМВ), яка буде здатна працювати як з одним, так і з декількома тисячами паперових документів в день. При проектуванні системи введення паперових документів виконується наступна сукупності операцій:

визначення складу операцій, яка повинна виконувати система;

вибирання технічних засобів реалізації виконання цих операцій;

вибір і налаштування програмного забезпечення;

розробка технологічної документації.

Розглянемо зміст основних операцій автоматизованого введення паперових документів. Автоматизовані читання і введення документів включають операції, які можна об'єднати в декілька стадій :

підготовка документів до сканування;

отримання зображення документу;

розпізнавання і введення даних, що містяться в документі вИБ.

1. Підготовка документів до сканування - дуже важлива фаза процесу введення документів, яка забезпечує отримання достовірних від сканованих зображень, що зберігаються в системі, і включає дві операції: безпосередню підготовку документів для сканування і виконання опису на будівництва системи на конкретну форму документу.

Підготовка документів для сканування припускає виконання наступних кроків :

•визначення самого документу для сканування;

•вибір конкретних областей документу для сканування;

•визначення технологічного ланцюжка руху документу до сканування;

•безпосередня підготовка документів для сканування: відкриття конвертів, видалення скріпок або інших предметів, що заважають скануванню;

•підготовка пакетів документів для сканування. Складання опису кожного документу припускає виконання трьох операцій :

•складання налаштування форми документу;

•налаштування моделі введення;

•налаштування полів форми документу і індексації бази даних.

У основі виконання цього складу операцій лежить поняття форматованого (структурованого) документу (ФД). Типовими прикладами документів, що форматуються є «Платіжні доручення», «Прайс-листи» «Декларації про прибутки», «Рахунки» і так далі. Основною структурною одиницею документу, що форматується, є поле документу. Кожне поле описується в двох аспектах: візуально, зокрема геометрично, і містячи тільний. З образотворчої точки зору кожне поле має бути явно відособлене: порожніми проміжками, розділовими лініями, оригінальним типом шрифту, рівнем фону, кольором і так далі

Змістовна частина характеризується призначенням поля, словарним і алфавітним складом, а також деякими законами побудови тексту, наприклад, в полі поштової адреси повинні бути зведення про місто, вулицю, будинок

Геометричні і змістовні характеристики полів можуть бути як абсолютно незалежними, так і взаємосвязаними. Наприклад, в прибутковому ордері поряд з полями «кількість» і «ціна» знаходиться поле «сума».

Документи, які підлягають скануванню, можуть бути об'єднані в групи за декількома ознаками. За способом нанесення інформації можна виділити документи, в яких використовуються мітки, друкарський, рукописний текст. Так, наприклад, виборчі бюлетені використовують міточний спосіб, тоді як Прайс-листи - друкарський, а первинні бухгалтерські документи - в основному рукописні.

По геометричній варіантності полів розрізняють документи, в яких розташування усіх полів і записів строго фіксірованні відносно опорних елементів : рамок, ліній, постоялих надрукованих записів, спеціальних маркерів. Усе спеціально підготовлені для машинної обробки документи мають цю якість. Іншим типом є документи, які мають довільне розташування полів.

Крім того, можна розділяти документи по наявності явних роздільників полів, які часто є присутніми в таблицях, бухгалтерських документах і в платіжних дорученнях, або їх відсутності.

2. Напів паперове зображення документу - включає виконання таких операцій, як сканування; контроль якості відображень, що сканують, і можливе повторне сканування.

Сканування - це дуже відповідальна операція, отже, до вибору конкретної моделі сканера необхідно підходити досить відповідально. При виборі слід враховувати наступні чинники: розміри документів, їх стан, також чи є документ одностороннім або двостороннім, щільність роботи сканерів, необхідний дозвіл зображення, надійність отримуваних зображень.

•персональні - низько швидкісні (20-40 рядків/мін.

•настільні офісні - середньо швидкі (40-60 рядків/мін або 80-120 зображень в хвилину.

•високопродуктивні потокові (90-185 сторінок/мін або 180-370 зображень в хвилину.

За якістю сканування, залежного від дозволенної здібності, їх можна розділити на наступні групи:

•з низькою роздільною здатністю дюйм);

•з середньою роздільною здатністю (600-800 точок/1 дюйм);

•  з високою роздільною здатністю (1600-2800 точок/ дюйм);

•  спеціального призначення.

Для введення старих документів застосовують сканери спеціального призначення з вакуумним притиском документів, які пред'являють дуже низькі вимоги до документу і обробляють його в щадному режимі. Такі сканери дозволяють сканувати не повністю розкриті книги і документи поганої якості. Швидкість введення у таких пристроїв 0,25-3 сторінки в (хвилину.

Контроль якості від сканованих зображень потрібний для того, щоб усі потрібні документи були від скановані і легко читані (не повинно бути пропущених сторінок, неякісних зображень і так далі). Для підвищення ефективності і надійності системи слід мати можливість вибіркової перевірки якості від сканованих зображень, а при скануванні багатосторінкових документів - можливість відстежувати порядок сканованих сторінок.

Повторне сканування проводиться у разі незадовільного якості зображення або через проблеми, пов'язані з неправильним порядком сторінок в документі.

3. Розпізнавання і введення даних, що містяться в документі, в інформаційну базу припускають виконання наступних основних операцій :

•  попередньої обробки зображень;

•  знаходження полів (сегментація документу і читання тексту);

•  перевірки розпізнаної інформації;

•  введення даних в інформаційну базу.

•  Попередня обробка зображення документів використовує наступні спеціальні функції:

•  очищення зображення застосовується для зняття з зображення окремих елементів (наприклад, точки, плями);

•  зняття фону і виділень (наприклад, з цінних паперів);

•  вирівнювання зображення для наступної його обробки з метою поліпшення якості розпізнавання, щоб документ показати в строго вертикальному положенні в процедурі розпізнання без перекосів;

• зняття елементів форм (для того, щоб ефективно обробляти форму, необхідно видаляти із зображення елементи форми: лінії, розграфлені, таблиці і так далі);

•  визначення ідентифікатора форм (оскільки доводиться вводить в систему найрізноманітніші форми, відмінні як за змістом, так і по структурі; для того, щоб система могла працювати з множиною форм, вона повинна визначати, яка форма поступила на обробку, і завантажувати відповідно заздалегідь налагоджене і підготовлене опис форми);

•  відновлення букв і символів, якщо вони виявляються пересіченими елементами форми, наприклад лінією.

Крім того, до попередньої обробки зображення відносяться наступні функції, що підвищують надійність розпізнавання:

•  обертання зображення на довільний кут;

•  масштабування зображення;

•  регулювання рівня сірого кольору;

•  компресія і декомпресія зображення.

Процеси знаходження полів (сегментація документу) і читання тексту можуть бути виконані послідовно і незалежно, якщо поля повністю визначені своїми візуальними характеристиками. Така ситуація характерна для машиночитаємих форм і документів з явними роздільниками полів у вигляді ліній або великих проміжків. У документах, що не мають строго певного положення полів і явних роздільників між ними, немає принципово іншого способу, як прочитати текст і за його змістом скоректувати результати попередньої сегментації.

У машиночитаємих формах завдання в основному зводиться до знаходження опорних елементів і обчислення відносно них положення інформативних полів. Документи, строго заданої геометрії, що не мають, але що проте використовують явно задані роздільники, обробляються досить надійно, на приклад таблиці з роздільниками у вигляді горизонтальних та вертикальних прямих.

Найбільш складна ситуація виникає при роботі з гнучкими формами документів. Термін «гнучка» означає, що відомі склад полів, їх зразкове розташування, деякі особливості по будові полів, але відсутня повна і точна орієнтація по їх розташуванню.

Як правило, завдання обробки різних форм документів, таких, як платіжні документи, податкові декларації і інші, вирішуються індивідуально шляхом програмування з використанням загальних прийомів.

Якщо дані після розпізнавання помічені як некоректні, то вони автоматично прямують на ручне редагування. Під час редагування оператор бачить реальне зображення нерозпізнаного поля і має можливість від коректувати його. Після введення оператором нових даних знову застосовуються правила перевірки даних, тобто на усіх етапах в ведення, як автоматичного, так і ручного, здійснюється перевірка даних відповідно до правил, визначених користувачем. Великі вимоги в даному випадку пред'являються до методів перевірки даних, що вводяться. Для підвищення надійності даних використовуються додаткові механізми, такі, як застосування словників і таблиць, визначуваних користувачем. Як правило, системи включають спеціальні вбудовані засоби для визначення спеціальних процедур перевірки для кожного поля документу.

Введення даних, що містяться в документі, в інформаційну базу є завершальною операцією. При цьому може бути збережене зображення документу.

На відміну від звичайної системи розпізнавання (OCR) система введення стандартних форм використовує формальний опис початкової форми документу або бланка. Це дозволяє автоматично поміщати розпізнану інформацію в поля бази даних без участі оператора. Суворе дотримання стандартного виду форми документа істотно підвищує точність розпізнання полів документу.

Основний чинник при оцінці ефективності систем розпізнавання полягає у вартості виправлення помилок при розпізнавані, а не в точності і швидкості системи. У деяких випадках витрати на виправлення помилок при розпізнаванні можуть перекрити усі плюси автоматизації і зробити ручне введення по зображенню ефективнішим.

При розробці і використанні такої системи проектувальник вимагається виконати також великий об'єм робіт по інтеграції цієї системи введення в діючу або що розробляє інформаційну систему. На продуктивність системи дуже великий вплив чинить використовувана технологія вода так, її налаштування на поточне завдання і вид документів. Тут потрібно враховувати склад устаткування, програмне забезпечення і сумісність формату розпізнаної інформації вже що існують системами.

Існує безліч компаній, які пропонують рішення або компоненти систем обробки форм. Рішення про в системи обробки форм, а також вибір того або іншого додатки повинні робитися з обліком в першу чергу таких вимог:

•тип оброблюваних документів і вид що містяться в них даних;

•точність розпізнавання;

•наявність ефективної системи редагування;

•настроювання системи до вимог конкретного користувача і здатність змінюватися згідно зовнішніх чинників, що міняються, даним умовам без програмування;

•наявність підтримки сканерів різних типів, а також різного роду плат обробки зображень документів;

•наявність редактора форм, що налаштовує систему на нові форми або зміни старої форми, на яку система була заздалегідь орієнтована;

•наявність редактора схем обробки документів, відкритого інтерфейсу підключення різних модулів розпізнавання (залежно від типу форми можна для підвищення якості розпізнавання підключати той або інший модуль, котрі найбільш підходить для цього типу форми);

•наявність редактора схем експорту у базу даних (дані, котрі витягаються при обробці форми, мають бути, передані у базу даних для зберігання або в інші бізнес-додатки для обробки).

Ефективність застосування системи введення паперових документів в ЭИС заснована в першу чергу на значному зменшення участі людини у введенні даних. Як наслідок, можна спостерігати зменшення часу введення документів і кількості помилок. Для організацій, оброблювальних великі потоки форм (центральні податкові і поштові відомства, статистичні організації, центри авторизації за розрахунками за кредитні карти), використання описаних технологій позволить вирішити проблеми ефективності обробки сотень тисяч і навіть мільйонів форм в стислі терміни.

проектування економічний кодування інформація сканування документ


Список використаної літератури

1.  «Проэктирование экономических информационных систем». Підручник. Г.Н. Смирнова, А.А. Сорокін, Ю.Ф. Тельнов. 2002 р.

2.  «Інформаційні системи і технології в економіці». Посібник. За ред. В.С. Пономаренка. ВЦ «Академія». 2002 р.


Информация о работе «Класи технологій проектування. Поняття і основні системи кодування економічної інформації. Проектування процесу введення паперових документів»
Раздел: Информатика, программирование
Количество знаков с пробелами: 24681
Количество таблиц: 1
Количество изображений: 1

Похожие работы

Скачать
143644
51
28

... моментів, якому потрібно знати при створенні нової інформаційної систем - те, що цей процес є одним видом запланованої організаційної зміни. 2. Перепроектування бізнесів-процесів Нові інформаційні системи можуть бути могутніми інструментами для організаційних змін. Вони не тільки допомагають раціоналізувати організаційні процедури і документообіг, але вони можуть фактично використовуватися для ...

Скачать
74788
52
0

... і управління процесами обробки даних, автоматизації роботи програмістів. Так, зокрема, Windows 98, яка використовувалась при розробці та тестуванні комп’ютерної системи обліку і аналізу розрахунків з постачальниками і підрядниками являє собою високопродуктивну, багатозадачну і багатопотокову 32-розрядну операційну систему з зручним графічним інтерфейсом і розширеними мережевими можливостями. ...

Скачать
259712
25
12

... та знизу ( нижній колонтитул ) у межах одного розділу або всього документа. Правильний вибір цієї інформації дає змогу читачеві краще орієнтуватися в документі. 5.4 Уведення інформації   Інформаційна система маркетингу – це сукупність інформації, апаратно-програмних і технологічних засобів, засобів телекомунікацій, баз і банків даних, методів і процедур, персоналу управління, які реалізують ...

Скачать
214694
25
9

... останньому випадку розрізняються експедиційний засіб, коли особа, що проводить опитуванння, сама роздає і збирає анкети, і кореспондентський, коли анкети розсилаються і повертаються поштою. [7]   3. УДОСКОНАЛЕННЯ ІНФОРМАЦІЙНОГО ЗАБЕЗПЕЧЕННЯ МАРКЕТИНГУ НА ПІДПРИЄМСТВІ Сьогодні виграє той, кого більше знають зовні з кращої сторони, той, хто знає більше про дійсний стан своєї організац ...

0 комментариев


Наверх