Поиск текста в PDF

Поиск текста в PDF когда сам текст документа сохранен в виде картинки (например, скан-копия документа).
Мы же рассмотрим следующий вариант решения данной задачи с помощью программ RiDoc и PDF-ST.
Допустим, имеется документ на десятки страниц в виде скан-копий, сохраненный в файл PDF.
Требуется найти нужный текст в данном документе.

Это возможно сделать, выполнив следующие шаги:
  • открыть PDF;
  • произвести операцию распознавание текста (OCR);
  • произвести поиск нужного текста.
Мы же рассмотрим варианты решения данной задачи с помощью двух программ RiDoс (версия 6.0 и выше) и PDF-ST.

Суть заключается в том, что программы RiDoс (версия 6.0 и выше) и PDF-ST используют в своей работе библиотеку TesseactOCR, которая при распознании текста позволяет получить и разместить скрытый текстовый слой в PDF-файл, который становится доступен для поиска.
Итак первый вариант - это программа RiDoc.
Официальный сайт программы https://getridoc.com

Выполняем следующие шаги:
  • открывает в программе RiDoc PDF-файл.
  • Жмем кнопку "PDF-OCR" (функция доступна в RiDoc версии 6.0 и выше)
  • В появившемся окне настраиваем следующие параметры: куда и под каким именем сохраняем PDF-файл с возможностью поиска текста, язык распознавания и режим вывода (серый или цветной).
После этого RiDoc произведет распознавание текста, сохранит все в PDF-файл и откроет его в программе для просмотра PDF на вашем ПК.

Остается только запустить процедуру поиска нужного текста (обычно это комбинация клавиш Ctrl и F).
Второй вариант - программа PDF-ST.
Официальный сайт программы https://riman.ru/pdf-st

Здесь немного другой подход: программа PDF-ST сразу конвертирует выбранные PDF-файлы и мы получаем на выходе PDF c возможностью поиска текста.

О безопасности использования офлайн-программ


Обращаем особое внимание на то, что программы RiDoc и PDF-ST работают в ОФЛАЙН режиме, т.е. при формировании документов в формате PDF исключается возможность доступа к вашим документам третьих лиц (вся обработка данных происходит исключительно на вашем компьютере).

Доступ третьих лиц к вашим документам возможен , если пользоваться ОНЛАЙН сервисами при формировании PDF файлов. В этом случае документы отправляются через Интернет на сайт данного сервиса (т.е. третьим лицам).