- +

Автор: Kronos1705 Тема: Tesseract + gImageReader (распознавание текста)  (Прочитано 275 раз)

Оффлайн Kronos1705

  • Начинающий
  • *
  • Сообщений: 38
  • Репутация: +1/-0
    • Просмотр профиля
По вечерам, вместо бумажных изданий, я беру в руки планшет. Читать без заметок на полях — трудно. Оставлять комментарии в цифре — неудобно. Решил поступать иначе: читаю, нравится строчка или страница — делаю скриншот и отправлю в облако, чтобы потом распознать страницу на ПК и… вот тут я задумался — а что есть для распознавания текста в Linux? Ибо онлайн-сервисы утомили, выскакивает капча при работе с каждой страницей.

FineReader через Wine или на виртуалку — дорого и неудобно: избыточный функционал и рюшечки мне не нужны, единственная потребность — конвертировать скриншот в текст для LibreOffice или простой .txt документ.

Решение нашлось, спасибо за руководство для новичка, — «Tesseract». И графический к нему интерфейс — «gImageReader». Ищем в Synaptic:
tesseract-ocr
tesseract-ocr-rus (для русского языка)
и
gImageReader
Устанавливаем и… радуемся? Нет, решение не идеальное. Поясню.

Вот один из скриншотов, «теплоты» картинки не боимся, это активен «Twilight», распознаем:


и получаем:


в 1 клик убираем разрывы строк:


приемлемо, иногда — отлично, потому-что нужные фрагменты текста — не сноски и не поля, а само содержание книги, которое правишь в одном-двух местах, но если сделать скрин из .pdf журнала, взял один из номеров «Хакер», то удивляюсь: причина ошибок — разрешение изображения?


У кого-нибудь есть мысли, как довести уровень распознавания скриншотов до идеального?

P. S. Сканером не пользуюсь, поэтому буду признателен, если кто-нибудь поделится своим личным опытом сканирования книг (или иного текста) и тем дополнит заметку.

Оффлайн butjapka

  • Global Moderator
  • Старожил
  • *****
  • Сообщений: 1195
  • Репутация: +117/-0
  • Xubuntu 16.04 LTS
    • Просмотр профиля
Re: Tesseract + gImageReader (распознавание текста)
« Ответ #1 : Август 14, 2017, 19:32:26 »
В вашем случае можно было воспользоваться пунктом правил по добавлению изображений
Цитировать
Исключение составляют иллюстрации, используемые в различного рода статьях, однако в этом случае нужно внимательно следить за размерами добавляемого изображения - не более 600px по ширине и не более 400px по высоте.
в общем рисунки 400х600 в таком случае допускаются.
А так полезная информация, плюсую!