RiDoc - простая утилита для распознавания текста, которая дает возможнсть распознать отсканированный документ в текстовый формат. Такая утилита должна быть всегда под рукой - очень часто требуется распознать простой отсканированный документ в текстовый формат.
Преимуществом RiDoc является то, что программа может как сканировать документ, т.е. создавать графический вариант бумажного документа, так и сразу открывать графический файл (bmp, png, jpeg, TIFF (в т.ч. многостраничный)) содержащий текст для распознавания.
По сути, программа RiDoc является универсальным средством для сканирования документов и распознавания текста.
Для распознавания текста в программе RiDoc используется OCR Tesseract - свободно распространяемый продукт от компании Google. В настоящее время OCR Tesseract поддерживает огромное количество языков для распознавания, в том числе и русский язык (он уже включен в установочную программу RiDoc).
Для добавления нового языка распознавания нужно выполнить следующие шаги: - Скачиваем архив нового языка со страницы загрузки языков распознавания OCR Tesseract.
- Из скаченного архива распаковываем файл нового языка с раширением *.traineddata в папку c:\Program Files (x86)\Riman\RiDoc\tessdata\ (для Windows Vista, Win 7) или c:\Program Files\Riman\RiDoc\tessdata\ (для Win XP).
- Перезапускаем RiDoc. Выбираем новый язык для распознавания текста в списке языков (закладка OCR).
- Выполняем распознавание текста.
перейти на страничку программы RiDoc
Узнать больше о программе RiDoc:
|