Вийшов реліз системи Tesseract 5.0: розпізнає тексти на 123 мовах, включаючи українську

Опубліковано реліз системи оптичного розпізнавання тексту Tesseract 5.0, яка підтримує розпізнавання символів UTF-8 і текстів більш ніж на 100 мовах, включаючи українську. При цьому результат може зберігатись як відкритим текстом, так і у форматах HTML (hOCR), ALTO (XML), PDF та TSV.

Про систему

Відомо, що ця система була створена в 1985-1995 роках у лабораторії компанії Hewlett Packard. У 2005 році код був відкритий під ліцензією Apache й надалі розвивався за участю працівників компанії Google. Вихідні тексти проєкту розповсюджуються за ліцензією Apache 2.0.

Tesseract включає консольну утиліту та бібліотеку libtesseract для вбудовування функцій розпізнавання тексту в інші застосунки. Зі сторонніх GUI-інтерфейсів, що підтримують Tesseract, можна відзначити gImageReader, VietOCR і YAGF.

Зокрема, пропонується два рушії розпізнавання: класичний, що розпізнає текст на рівні шаблонів окремих символів, і новий, що базується на застосуванні системи машинного навчання на базі нейронної рекурентної мережі LSTM, оптимізованої для розпізнавання цілком рядків і дозволяє домогтися істотного збільшення точності.

При цьому готові натреновані моделі опубліковані для 123 мов. Для оптимізації продуктивності пропонуються модулі, які використовують OpenMP та SIMD інструкції AVX2, AVX, NEON або SSE4.1.

Головні покращення в Tesseract 5.0

Насамперед значна зміна номера версії пов’язана із внесенням до API змін, які порушують сумісність. Зокрема, публічно доступний API libtesseract більше не прив’язаний до пропрієтарних типів даних GenericVector і STRING, замість яких у коді задіяні std::string та std::vector.

Проведено реорганізацію дерева вихідних текстів. Публічні файли заголовків переміщено в каталог include/tesseract. Також перероблено управління пам’яттю, всі виклики malloc і free замінені на код C++. Проведено загальну модернізацію коду.

До того ж додані оптимізації для архітектур ARM та ARM64, для прискорення обчислень задіяні інструкції ARM NEON. Проведено загальну для всіх архітектур оптимізацію продуктивності.

А ще — реалізовано нові режими тренування моделей і розпізнавання тексту, що базуються на використанні обчислень із плаваючою комою. Нові режими відрізняються вищою продуктивністю та зниженням споживання пам’яті. У рушії LSTM швидкий режим float32 увімкнено за замовчуванням.

Що ще оновили

До нової версії системи оптичного розпізнавання тексту Tesseract 5.0 також внесено такі зміни:

  • здійснено перехід на використання нормалізації Unicode з застосуванням форми NFC (Normalization Form Canonical);
  • додано опцію для налаштування деталізації логів (—loglevel);
  • перероблено систему складання на основі Autotools, яка переведена на складання в нерекурсивному режимі;
  • гілка «master» Git перейменована в «main»;
  • додано підтримку нових випусків macOS та систем Apple на базі чіпа M1.


Раніше компанія JetBrains презентувала легковаговий редактор Fleet. Це — IDE наступного покоління із абсолютно новою архітектурою та інтерфейсом.

Перед цим корпорація Microsoft опублікувала загальнодоступні випуски .NET 6 і Visual Studio 2022.

👍ПодобаєтьсяСподобалось6
До обраногоВ обраному2
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
яка підтримує розпізнавання символів UTF-8

:person facepalming:

Підписатись на коментарі