Форум русскоязычного сообщества Xubuntu

Установка и настройка => Программное обеспечение => Тема начата: Wanderer от августа 14, 2017, 15:42:30

Название: Tesseract + gImageReader (распознавание текста)
Отправлено: Wanderer от августа 14, 2017, 15:42:30
По вечерам, вместо бумажных изданий, я беру в руки планшет. Читать без заметок на полях -- трудно. Оставлять комментарии в цифре -- неудобно. Решил поступать иначе: читаю, нравится строчка или страница -- делаю скриншот и отправлю в облако, чтобы потом распознать страницу на ПК и... вот тут я задумался -- а что есть для распознавания текста в Linux? Ибо онлайн-сервисы утомили, выскакивает капча при работе с каждой страницей.

FineReader через Wine или на виртуалку -- дорого и неудобно: избыточный функционал и рюшечки мне не нужны, единственная потребность -- конвертировать скриншот в текст для LibreOffice или простой .txt документ.

Решение нашлось, спасибо за руководство для новичка (https://forum.xubuntu-ru.net/index.php?topic=1117.0), -- «Tesseract (https://ru.wikipedia.org/wiki/Tesseract)». И графический к нему интерфейс -- «gImageReader». Ищем в Synaptic:
tesseract-ocr
tesseract-ocr-rus (для русского языка)
и
gImageReader
Устанавливаем и... радуемся? Нет, решение не идеальное. Поясню.

Вот один из скриншотов, «теплоты» картинки не боимся, это активен «Twilight (https://play.google.com/store/apps/details?id=com.urbandroid.lux&hl=ru)», распознаем:
(http://storage9.static.itmages.ru/i/17/0814/s_1502703023_7658620_21841258fa.png) (https://itmages.ru/image/view/6013185/21841258)

и получаем:
(http://storage5.static.itmages.ru/i/17/0814/s_1502703082_5927704_01e8565a6f.png) (https://itmages.ru/image/view/6013190/01e8565a)

в 1 клик убираем разрывы строк:
(http://storage5.static.itmages.ru/i/17/0814/s_1502703185_8752119_f18a021309.png) (https://itmages.ru/image/view/6013199/f18a0213)

приемлемо, иногда -- отлично, потому-что нужные фрагменты текста -- не сноски и не поля, а само содержание книги, которое правишь в одном-двух местах, но если сделать скрин из .pdf журнала, взял один из номеров «Хакер», то удивляюсь: причина ошибок -- разрешение изображения?
(http://storage1.static.itmages.ru/i/17/0814/s_1502703323_6008617_a05bcda558.png) (https://itmages.ru/image/view/6013213/a05bcda5)

У кого-нибудь есть мысли, как довести уровень распознавания скриншотов до идеального?

P. S. Сканером не пользуюсь, поэтому буду признателен, если кто-нибудь поделится своим личным опытом сканирования книг (или иного текста) и тем дополнит заметку.
Название: Re: Tesseract + gImageReader (распознавание текста)
Отправлено: butjapka от августа 14, 2017, 23:32:26
В вашем случае можно было воспользоваться пунктом правил по добавлению изображений
ЦитироватьИсключение составляют иллюстрации, используемые в различного рода статьях, однако в этом случае нужно внимательно следить за размерами добавляемого изображения - не более 600px по ширине и не более 400px по высоте.

в общем рисунки 400х600 в таком случае допускаются.
А так полезная информация, плюсую!
Название: Re: Tesseract + gImageReader (распознавание текста)
Отправлено: el guahiro от июля 20, 2019, 01:06:14
два web-приложения от el guahiro, которые позволяют распознавать текст и (!) таблицы   здесь https://forum.xubuntu-ru.net/index.php?topic=1117.msg11953#msg11953