МЕТОДИКА ОЦІНКИ ТОЧНОСТІ РОЗПІЗНАВАННЯ СИМВОЛІВ І ТЕКСТУ З ЗОБРАЖЕННЯ ДЛЯ АНАЛІЗУ ЯКОСТІ СУЧАСНИХ ІНСТРУМЕНТІВ OCR

Автор(и)

  • В. О. Гріньков Військовий інститут телекомунікацій та інформатизації імені Героїв Крут
  • Г. В. Грінькова НДІ ВР
  • С. В Гріньков ДУ «Відкриті публічні фінанси»

DOI:

https://doi.org/10.58254/viti.6.2024.05.75

Ключові слова:

методика оцінки, метрики оцінки, розпізнавання тексту, технології OCR, моделі OCR, точність розпізнавання, аналіз зображення, машинне навчання

Анотація

Оптичне розпізнавання символів – це потужна технологія, яка перетворює зображення з текстом
у редагований і пошуковий формат. Це забезпечує ефективність у роботі з документами, підвищує доступність
інформації і сприяє автоматизації багатьох процесів.


Вперше цю технологію почали використовувати на початку 90-х, при оцифруванні історичних газет для
створення електронного архіву. За останні роки систему оптичного розпізнавання символів вдалося
доопрацювати до «ідеалу»: нинішні системи оптичного розпізнавання символів показують майже ідеальну
точність розпізнавання тексту. Але для цього потрібно виконання наступних вимог:
рівність і контрастність символів;
однотипність фону тексту;
контраст між фоном та літерами.


Набагато складніше процес розпізнавання символів і тексту з зображень, коли не виконуються
вищеперелічені вимоги, а саме вирішення таких задач є вимогами сьогодення для вирішення практичних завдань
у військовій сфері. Розпізнавання тексту з зображень має багато важливих застосувань, що робить його
актуальним і необхідним.


В статті, з використанням конкретних типів зображень, проаналізовано декілька найбільш відомих та
популярних моделей штучного інтелекту для розпізнавання тексту з зображення, такі як Tesseract OCR,
PyTorch, EasyOCR, Keras OCR5, OpenCV, отримані результати розпізнавання тексту і символів з зображень
різної складності.


Для оціки результатів точності розпізнавання символів і тексту, розроблена методика оцінки точності
розпізнавання на базі спеціальих метрик оцінки, яка основана на порівнянні розпізнаного тексту із еталонним
(правильним) текстом. Найбільш поширені метрики включають точність розпізнавання символів (Character
Accuracy Rate, CAR) та точність розпізнавання слів (Word Accuracy Rate, WAR).


За допомогою розробленої методики оцінки точності розпізнавання проведено аналіз точності
розпізнавання найбільш популярних інструментів технології оптичного розпізнавання тексту і символів
з зображень різної складності. Проведений аналіз показав, що найбільшу ефективність і точність розпізнавання
демонструє модель EasyOcr, яка навіть в умовах сильної «зашумленості» і неякісної контрастності зображення
демонструвала стабільний результат і при умовах подальшого налаштування для потреб користувача, може
бути застосована для рішення конкретного завдання

 

Посилання:

  1. Переяславська С., Шевченко В., Смагіна О. Аналіз підходів до розпізнавання текстової
    інформації у технології OCR. Scientific Collection «InterConf»: SCIENTIFIC RESEARCH IN
    XXI CENTURY (March 6–8, 2021).
    2. Hamad K, Kaya M. A Detailed Analysis of Optical Character Recognition Technology URL:
    https://dergipark.org.tr/en/download/article-file/236939 (дата звернення: 25.04.2024).
    3. Eikvil L. OCR Optical Character Recognition. URL: https://www.nr.no/~eikvil/OCR.pdf (дата
    звернення: 15.09.2024).
    4. Optical Character Recognition: An Illustrated Guide to the Frontier. Georeg Nagy, Stephen V. Rise,
    Thomas A. Narker. Springer Science&Business Media. 2019 (дата звернення: 25.05.2024).
    5. Scene Text Detection and Recognition: The Era of Deep Learning – Baoguan Shi, Xiang Bai, Kong
    Yao (2017). URL: https://www.researchgate.net/publication/328899907 (дата звернення: 20.10.2024).
    6. Reading Text in the Wild with Convolutional Neural Networks. Jaderberg M., Simonyan K.,
    Vedaidi A., Zisserman A. URL: https://www.robots.ox.ac.uk/~vgg/publications/2016/Jaderberg16/jaderberg
    16.Pdf (дата звернення: 14.08.202424).
    7. URL: https://github.com/JaidedAI/EasyOCR (дата звернення: 16.03.2024).
    8. URL: https://github.com/DYJNG/PyTorchOCR (дата звернення: 09.04.2024).
    9. URL: https://github.com/faustomorales/keras-ocr (дата звернення: 19.04.2024).
    10. URL: https://opencv.org/ (дата звернення: 18.04.2024).
    11. ISO/IEC 19757-7:2009. "Information technology – Document Schema Definition Languages
    (DSDL) – Part 7: Character Repertoire Description Language (CREPDL)".
    12. Jurafsky, D., & Martin, J. H. (2009). "Speech and Language Processing". Upper Saddle River, New
    Jersey 07458
MITIT_6_5

##submission.downloads##

Опубліковано

2024-12-11