User Tools

Site Tools


Sidebar

Me
Здравствуйте!

Меня зовут Михаил Усик!
Я системный администратор
и наполняю эту wiki,
решая разнообразные IT-задачки.

Я всегда готов помочь Вам
наладить IT-инфраструктуру
за скромное вознаграждение!

mike@autosys.tk
+7 (977) 887-96-23

linux_faq:ubuntu_ocr_gui_распознавание_текста_ubuntu_gui

Понадобилось мне распознать десяток страниц из документа djvu. Я, по старой памяти, сконвертировал djvu в pdf с помощью djview4 (это просмотрщик с GUI, который умеет Export to PDF).
А потом попытался распознать.
Сначала попробывал Yagf + Cuneiform. Yagf вываливался в Segmentation Fault на этапе открытия PDF.
Потом я попробывал lios. По сравнению с yagf он оказался гораздо лучше. lios смог нормально испортировать изображения их pdf и распознать. Русский язык нормально распознался с помощью tesseract после установки словаря:

sudo apt-get install lios tesseract tesseract-ocr-rus

А для распознавания djvu без преобразования в pdf есть такое:

ocrodjvu - tool to perform OCR on DjVu documents

Discussion

Enter your comment. Wiki syntax is allowed:
U Z Q V H
 
linux_faq/ubuntu_ocr_gui_распознавание_текста_ubuntu_gui.txt · Last modified: 2019/06/05 10:10 by admin