Tesseract + gImageReader (распознавание текста)

Wanderer · августа 14, 2017, 15:42:30

По вечерам, вместо бумажных изданий, я беру в руки планшет. Читать без заметок на полях -- трудно. Оставлять комментарии в цифре -- неудобно. Решил поступать иначе: читаю, нравится строчка или страница -- делаю скриншот и отправлю в облако, чтобы потом распознать страницу на ПК и... вот тут я задумался -- а что есть для распознавания текста в Linux? Ибо онлайн-сервисы утомили, выскакивает капча при работе с каждой страницей.

FineReader через Wine или на виртуалку -- дорого и неудобно: избыточный функционал и рюшечки мне не нужны, единственная потребность -- конвертировать скриншот в текст для LibreOffice или простой .txt документ.

Решение нашлось, спасибо за руководство для новичка, -- «Tesseract». И графический к нему интерфейс -- «gImageReader». Ищем в Synaptic:
tesseract-ocr
tesseract-ocr-rus (для русского языка)
и
gImageReader
Устанавливаем и... радуемся? Нет, решение не идеальное. Поясню.

Вот один из скриншотов, «теплоты» картинки не боимся, это активен «Twilight», распознаем:

и получаем:

в 1 клик убираем разрывы строк:

приемлемо, иногда -- отлично, потому-что нужные фрагменты текста -- не сноски и не поля, а само содержание книги, которое правишь в одном-двух местах, но если сделать скрин из .pdf журнала, взял один из номеров «Хакер», то удивляюсь: причина ошибок -- разрешение изображения?

У кого-нибудь есть мысли, как довести уровень распознавания скриншотов до идеального?

P. S. Сканером не пользуюсь, поэтому буду признателен, если кто-нибудь поделится своим личным опытом сканирования книг (или иного текста) и тем дополнит заметку.

butjapka · августа 14, 2017, 23:32:26

В вашем случае можно было воспользоваться пунктом правил по добавлению изображений

ЦитироватьИсключение составляют иллюстрации, используемые в различного рода статьях, однако в этом случае нужно внимательно следить за размерами добавляемого изображения - не более 600px по ширине и не более 400px по высоте.

в общем рисунки 400х600 в таком случае допускаются.
А так полезная информация, плюсую!

el guahiro · июля 20, 2019, 01:06:14

два web-приложения от el guahiro, которые позволяют распознавать текст и (!) таблицы здесь https://forum.xubuntu-ru.net/index.php?topic=1117.msg11953#msg11953

Новости:

Tesseract + gImageReader (распознавание текста)

Wanderer

августа 14, 2017, 15:42:30

butjapka

августа 14, 2017, 23:32:26 #1

el guahiro

июля 20, 2019, 01:06:14 #2 Последнее редактирование: июля 20, 2019, 01:11:07 от el guahiro