linux_faq:ubuntu_ocr_gui_распознавание_текста_ubuntu_gui

Понадобилось мне распознать десяток страниц из документа djvu. Я, по старой памяти, сконвертировал djvu в pdf с помощью djview4 (это просмотрщик с GUI, который умеет Export to PDF).
А потом попытался распознать.
Сначала попробывал Yagf + Cuneiform. Yagf вываливался в Segmentation Fault на этапе открытия PDF.
Потом я попробывал lios. По сравнению с yagf он оказался гораздо лучше. lios смог нормально испортировать изображения их pdf и распознать. Русский язык нормально распознался с помощью tesseract после установки словаря:

sudo apt-get install lios tesseract tesseract-ocr-rus

А для распознавания djvu без преобразования в pdf есть такое:

ocrodjvu - tool to perform OCR on DjVu documents
Enter your comment. Wiki syntax is allowed:
U D K O F
 
  • linux_faq/ubuntu_ocr_gui_распознавание_текста_ubuntu_gui.txt
  • Last modified: 2019/06/05 10:10
  • by admin