Оптическое распознавание текста (OCR) под Linux

Понадобилось мне распознать десяток страниц из документа djvu. Я, по старой памяти, сконвертировал djvu в pdf с помощью djview4 (это просмотрщик с GUI, который умеет Export to PDF).
А потом попытался распознать.
Сначала попробывал Yagf + Cuneiform. Yagf вываливался в Segmentation Fault на этапе открытия PDF.
Потом я попробывал lios. По сравнению с yagf он оказался гораздо лучше. lios смог нормально испортировать изображения их pdf и распознать. Русский язык нормально распознался с помощью tesseract после установки словаря:

sudo apt-get install lios tesseract-ocr tesseract-ocr-rus speech-dispatcher

А для распознавания djvu без преобразования в pdf есть такое:

ocrodjvu - tool to perform OCR on DjVu documents
Enter your comment. Wiki syntax is allowed:
 
  • linux_faq/ubuntu_ocr_gui_распознавание_текста_ubuntu_gui.txt
  • Last modified: 2020/08/19 07:43
  • by admin