Оптическое распознавание текста (OCR) под Linux

Понадобилось мне распознать десяток страниц из документа djvu. Я, по старой памяти, сконвертировал djvu в pdf с помощью djview4 (это просмотрщик с GUI, который умеет Export to PDF).
А потом попытался распознать.
Сначала попробывал Yagf + Cuneiform. Yagf вываливался в Segmentation Fault на этапе открытия PDF.
Потом я попробывал lios. По сравнению с yagf он оказался гораздо лучше. lios смог нормально испортировать изображения их pdf и распознать. Русский язык нормально распознался с помощью tesseract после установки словаря:

sudo apt-get install lios tesseract-ocr tesseract-ocr-rus speech-dispatcher

А для распознавания djvu без преобразования в pdf есть такое:

ocrodjvu - tool to perform OCR on DjVu documents

Real name:

E-Mail:

Address:

Enter your comment. Wiki syntax is allowed:

Please fill all the letters into the box to prove you're human. Please keep this field empty:

Subscribe to comments

Оптическое распознавание текста (OCR) под Linux

Discussion