Оптичне розпізнавання образів

Предмет:

Інформатика

Тип роботи:

Доповідь

К-сть сторінок:

Мова:

Українська

Оцінка:

завдань;

- гнучка схема маршрутизації пакетів у системі;

- модульна архітектура для розподілення операцій;

- гнучке підстроювання під конкретну задачу;

- система черг та прикріплення задач до конкретних операторів;

- захищений доступ;

- сховище оброблених пакетів;

- обробка форм складної нелінійної структури;

- контроль за цілісністю даних;

- звіти про робочий стан комплексу.

Крім того, підсистема розпізнавання має гнучкий та потужний інтерфейс взаємодії з прикладними підсистемами для інтеграції функцій розпізнавання. Для цього використовується один з розповсюджених механізмів автоматизації, таких як OLE Automation чи COM (DCOM) інтерфейси.

Надійність розпізнавання й потреба програми в обчислювальних ресурсах багато в чому залежать від вибору структури й параметрів нейронної мережі. Зображення цифр приводяться до єдиного розміру (16х16 пікселів). Отримане зображення подається на вхід нейронної мережі, що має три внутрішніх рівні й 10 вузлів у верхньому рівні. Нижні шари мережі не є повнопов‘язаними. Вузли нижчого рівня спільно використовують загальний набір ваг. Все це, за задумом розроблювачів, повинне підвищити здатність нижчих рівнів мережі до виділення первинних ознак у зображеннях. Отримана в такий спосіб нейронна мережа має 1256 вузлів й 9760 незалежних параметрів. Для збільшення здатності мережі до узагальнення й зменшення обсягу необхідних обчислень і пам'яті проводиться видалення маловикористовуваних ваг. У результаті число незалежних параметрів зменшується в чотири рази. Навчання нейронної мережі проведено на наборі з 7300 символів, тестування на наборі з 2000 символів. Помилки розпізнавання становлять приблизно 1% на навчальному наборі й 5% на перевірочному.

Як вхідні параметри нейронної мережі, замість значень яскравості у вузлах нормалізованого растра можуть використовуватися значення, що характеризують перепад яскравості. Такі вхідні параметри дозволяють краще виділяти межі букви. Об‘єкти розпізнавання приводяться до розміру 16х16 пікселів. Після цього вони піддаються додатковій обробці з метою виділення ділянок з найбільшими перепадами в яскравості.

Одним із широко використовуваних методів підвищення точності розпізнавання є одночасне використання декількох різних розпізнавальних модулів і наступне об'єднання отриманих результатів (наприклад, шляхом голосування). При цьому дуже важливо, щоб алгоритми, використовувані цими модулями, були як можна більше незалежні. Це може досягатися як за рахунок використання розпізнавальних модулів, що використовують принципово різні алгоритми розпізнавання, так і спеціальним підбором навчальних даних.

Один з таких методів був запропонований кілька років тому і заснований на використанні трьох розпізнавальних модулів (машин). Перша машина навчається звичайним чином. Друга машина навчається на символах, які були відфільтровані першою машиною таким чином, що друга машина бачить суміш символів, 50% з яких були розпізнані першою машиною вірно й 50% невірно. Нарешті, третя машина навчається на символах, на яких результати розпізнавання 1-ої й 2-ий машин різні. При тестуванні розпізнавані символи подаються на вхід всім трьом машинам. Оцінки, одержувані на виході всіх трьох машин складаються. Символ, що одержав найбільшу сумарну оцінку видається як результат розпізнавання.

Як правило, алгоритм розпізнавання заснований на виділенні з растра із зображенням букви первинних ознак і наступному використанні штучної нейронної мережі для оцінки близькості вхідного зображення із символами із заданого набору букв. Результатом роботи є набір оцінок, що відбивають ступінь близькості розпізнаваного символу із символами із заданого набору символів. Набір розпізнаваних символів може включати букви й цифри. Вхідні матеріали для розпізнавання зображення символів перетворюються до єдиного розміру.

Відмінною рисою реалізованого алгоритму є використання нейронної мережі з досить великою кількістю вхідних ознак. Hа вихідному зображенні виділяються первинні ознаки, що характеризують перепади яскравості у вузлах растра. Нейронна мережа має один внутрішній рівень, що містить 100 вузлів і є загальнопов‘язаною, тобто кожен вузол внутрішнього рівня з'єднаний з усіма вхідними вузлами, а кожен вузол верхнього рівня з'єднаний з усіма вузлами внутрішнього рівня. Для зменшення обсягу обчислень при розпізнаванні для кожного розпізнаваного зображення символу використовуються не всі вхідні ознаки, а тільки частина, іншими словами вектор вхідних параметрів нейронної мережі є сильно розрідженим.

Навчання нейронної мережі відбувається звичайним чином, тобто використовується алгоритм зворотнього поширення помилки. Програма навчання одержує на вхід файл із зображеннями символів. При навчанні символи із цієї бази перебираються циклічно. Для кожного зображення з бази виділяються первинні ознаки, після чого виконуються прямий і зворотний проходи по мережі. Модифікація ваг мережі при навчанні виконується після кожного символу. Крок зміни ваг мережі постійний.

Для прискорення й поліпшення навчання погано розпізнавані символи проглядаються частіше за інші. Для цього використовується кеш, у якому зберігаються важко розпізнавані зображення. Растри для навчання вибираються як із вхідного файлу, так і з кешу. Вибір символу з кешу відбувається з урахуванням якості його розпізнавання, тобто погано розпізнавані символи вибираються частіше.

Крім того, при навчанні мережі використовується регулярізація ваг мережі, тобто вводиться їхнє експонентне згасання.

Якість розпізнавання залежить не тільки від алгоритмів, що використовуються програмами розпізнавання й навчання нейронної мережі, але й від того, яким чином навчалася нейронна мережа. На якість навчання нейронної мережі впливають наступні фактори: параметри бази з навчальними растрамиб, розмір, спосіб відбору растрів, порядок растрів у базі, наявність брудних символів і помилок у розмітці.

Після обробки документа сканером виходить графічне зображення документа (графічний образ). Але графічний образ ще не є текстовим документом. Людині досить глянути на лист папера з текстом, щоб зрозуміти, що на ньому написано. З погляду комп'ютера, документ після сканування перетворюється в набір різнокольорових точок, а зовсім не в текстовий документ.

Проблема розпізнавання тексту в складі точкового графічного зображення є дуже складною. Подібні задачі вирішують за допомогою спеціальних програмних засобів, які називаються засобами розпізнавання образів.

Реальний технічний прорив у цій області відбувся лише в останні роки. До цього розпізнавання тексту було можливе тільки шляхом порівняння виявлених конфігурацій точок зі стандартним зразком (еталоном, що зберігається в пам'яті комп'ютера). Автори програм задавали критерій «подібності», використовуваний при ідентифікації символів.

Подібні системи називалися OCR (Optical Character Recognition – оптичне розпізнавання символів) і спиралися на спеціально розроблені шрифти, що полегшували такий підхід. Якщо приходилося зіштовхуватися з довільним і, тим більше, складним шрифтом, програми такого роду починали давати серйозні збої.

Сучасні наукові досягнення в області розпізнавання образів буквально перевернули представлення про оптичне розпізнавання символів. Сучасні програми цілком можуть справлятися з різними (і дуже вигадливими) шрифтами без перенастроювання. Багато програм розпізнають навіть рукописний текст.

Оскільки потреба в розпізнаванні тексту відсканованих документів досить велика, не дивно, що існує значне число програм, призначених для цього. Оскільки різні наукові методи розпізнавання тексту розроблялися незалежно один від одного, багато з цих програм використовують зовсім різні алгоритми.

Ці алгоритми можуть давати різні результати на різних документах. Наприклад, вищезгадані системи OCR здатні розпізнавати тільки стандартний спеціально підготовлений шрифт і дають на цьому шрифті найкращі результати, які не може перевершити жодна з більш універсальних програм.

Сучасні алгоритму розпізнавання тексту не орієнтуються ні на конкретний шрифт, ні на конкретний алфавіт. Більшість програм здатні розпізнавати текст кількома мовами. Ті самі алгоритми можна використовувати для розпізнавання російського, латинського, арабського й іншого алфавітів і навіть змішаних текстів. Зрозуміло, програма повинна знати, про який алфавіт мова йде.

Найбільше широко відомі і поширені програми FineReader і CuneiForm.