Оптическое распознавание текста (OCR) под Linux
Понадобилось мне распознать десяток страниц из документа djvu.
Я, по старой памяти, сконвертировал djvu в pdf с помощью djview4 (это просмотрщик с GUI, который умеет Export to PDF).
А потом попытался распознать.
Сначала попробывал Yagf + Cuneiform. Yagf вываливался в Segmentation Fault на этапе открытия PDF.
Потом я попробывал lios. По сравнению с yagf он оказался гораздо лучше.
lios смог нормально испортировать изображения их pdf и распознать. Русский язык нормально распознался с помощью tesseract после установки словаря:
sudo apt-get install lios tesseract-ocr tesseract-ocr-rus speech-dispatcher
А для распознавания djvu без преобразования в pdf есть такое:
ocrodjvu - tool to perform OCR on DjVu documents
Discussion