Форум русскоязычного сообщества Xubuntu

Установка и настройка => Программное обеспечение => Тема начата: xub от декабря 15, 2020, 01:01:16

Название: Субтитры типа (hard-coded subtitle) есть ли возможность извлечь?
Отправлено: xub от декабря 15, 2020, 01:01:16
Приветствую!
Есть видео вот такого плана https://www.youtube.com/watch?v=BkvNaHgz8WE Little drops of water...
Никаких текстовых субтитров в нём нет. Если нет текстовых, значит они ,,картинками", а в ,,картинках" тоже есть варианты😕...
По выводу mediainfo можно что-то увидеть чтобы попробовать предпринять попытки извлечения текста?
General
Count                                    : 329
Count of stream of this kind             : 1
Kind of stream                           : General
Kind of stream                           : General
Stream identifier                        : 0
Unique ID                                : 62554186416177958702551865317149190133
Unique ID                                : 62554186416177958702551865317149190133 (0x2F0F7F81F2325DE9BB1662ACF08127F5)
Count of video streams                   : 1
Count of audio streams                   : 1
Video_Format_List                        : AVC
Video_Format_WithHint_List               : AVC
Codecs Video                             : AVC
Audio_Format_List                        : Opus
Audio_Format_WithHint_List               : Opus
Audio codecs                             : Opus
Audio_Language_List                      : English
Complete name                            : tt.mkv
File name                                : tt
File extension                           : mkv
Format                                   : Matroska
Format                                   : Matroska
Format/Url                               : https://matroska.org/downloads/windows.html
Format/Extensions usually used           : mkv mk3d mka mks
Commercial name                          : Matroska
Format version                           : Version 4 / Version 2
Codec                                    : Matroska
Codec                                    : Matroska
Codec/Url                                : https://matroska.org/downloads/windows.html
Codec/Extensions usually used            : mkv mk3d mka mks
File size                                : 33467537
File size                                : 31.9 MiB
File size                                : 32 MiB
File size                                : 32 MiB
File size                                : 31.9 MiB
File size                                : 31.92 MiB
Duration                                 : 133981
Duration                                 : 2 min 13 s
Duration                                 : 2 min 13 s 981 ms
Duration                                 : 2 min 13 s
Duration                                 : 00:02:13.981
Duration                                 : 00:02:13:24
Duration                                 : 00:02:13.981 (00:02:13:24)
Overall bit rate                         : 1998345
Overall bit rate                         : 1 998 kb/s
Frame rate                               : 25.000
Frame rate                               : 25.000 FPS
Frame count                              : 3349
IsStreamable                             : Yes
File last modification date              : UTC 2020-12-12 15:19:41
File last modification date (local)      : 2020-12-12 10:19:41
Writing application                      : Lavf57.83.100
Writing application                      : Lavf57.83.100
Writing library                          : Lavf57.83.100
Writing library                          : Lavf57.83.100
ErrorDetectionType                       : Per level 1

Video
Count                                    : 342
Count of stream of this kind             : 1
Kind of stream                           : Video
Kind of stream                           : Video
Stream identifier                        : 0
StreamOrder                              : 0
ID                                       : 1
ID                                       : 1
Unique ID                                : 1
Format                                   : AVC
Format/Info                              : Advanced Video Codec
Format/Url                               : http://developers.videolan.org/x264.html
Commercial name                          : AVC
Format profile                           : High@L4
Format settings                          : CABAC / 3 Ref Frames
Format settings, CABAC                   : Yes
Format settings, CABAC                   : Yes
Format settings, ReFrames                : 3
Format settings, ReFrames                : 3 frames
Internet media type                      : video/H264
Codec ID                                 : V_MPEG4/ISO/AVC
Codec ID/Url                             : http://ffdshow-tryout.sourceforge.net/
Codec                                    : V_MPEG4/ISO/AVC
Codec                                    : AVC
Codec/Family                             : AVC
Codec/Info                               : Advanced Video Codec
Codec/Url                                : http://ffdshow-tryout.sourceforge.net/
Codec profile                            : High@L4
Codec settings                           : CABAC / 3 Ref Frames
Codec settings, CABAC                    : Yes
Codec_Settings_RefFrames                 : 3
Duration                                 : 133960.000000
Duration                                 : 2 min 13 s
Duration                                 : 2 min 13 s 960 ms
Duration                                 : 2 min 13 s
Duration                                 : 00:02:13.960
Duration                                 : 00:02:13:24
Duration                                 : 00:02:13.960 (00:02:13:24)
Width                                    : 1920
Width                                    : 1 920 pixels
Height                                   : 1080
Height                                   : 1 080 pixels
Stored_Height                            : 1088
Sampled_Width                            : 1920
Sampled_Height                           : 1080
Pixel aspect ratio                       : 1.000
Display aspect ratio                     : 1.778
Display aspect ratio                     : 16:9
Frame rate mode                          : CFR
Frame rate mode                          : Constant
FrameRate_Mode_Original                  : VFR
Frame rate                               : 25.000
Frame rate                               : 25.000 FPS
Frame count                              : 3349
Resolution                               : 8
Resolution                               : 8 bits
Colorimetry                              : 4:2:0
Color space                              : YUV
Chroma subsampling                       : 4:2:0
Chroma subsampling                       : 4:2:0
Bit depth                                : 8
Bit depth                                : 8 bits
Scan type                                : Progressive
Scan type                                : Progressive
Interlacement                            : PPF
Interlacement                            : Progressive
Delay                                    : 0
Delay                                    : 00:00:00.000
Delay, origin                            : Container
Delay, origin                            : Container
Default                                  : Yes
Default                                  : Yes
Forced                                   : No
Forced                                   : No

Audio
Count                                    : 275
Count of stream of this kind             : 1
Kind of stream                           : Audio
Kind of stream                           : Audio
Stream identifier                        : 0
StreamOrder                              : 1
ID                                       : 2
ID                                       : 2
Unique ID                                : 2
Format                                   : Opus
Format/Url                               : http://opus-codec.org/
Commercial name                          : Opus
Internet media type                      : audio/opus
Codec ID                                 : A_OPUS
Codec ID/Url                             : http://opus-codec.org
Codec                                    : Opus
Codec                                    : Opus
Codec/Family                             : PCM
Duration                                 : 133981.000000
Duration                                 : 2 min 13 s
Duration                                 : 2 min 13 s 981 ms
Duration                                 : 2 min 13 s
Duration                                 : 00:02:13.981
Duration                                 : 00:02:13.981
Channel(s)                               : 2
Channel(s)                               : 2 channels
Channel positions                        : Front: L R
Channel positions                        : 2/0/0
Sampling rate                            : 48000
Sampling rate                            : 48.0 kHz
Samples count                            : 6431088
Resolution                               : 32
Resolution                               : 32 bits
Bit depth                                : 32
Bit depth                                : 32 bits
Compression mode                         : Lossy
Compression mode                         : Lossy
Delay                                    : 0
Delay                                    : 00:00:00.000
Delay, origin                            : Container
Delay, origin                            : Container
Delay relative to video                  : 0
Delay relative to video                  : 00:00:00.000
Video0 delay                             : 0
Video0 delay                             : 00:00:00.000
Language                                 : en
Language                                 : English
Language                                 : English
Language                                 : en
Language                                 : eng
Language                                 : en
Default                                  : Yes
Default                                  : Yes
Forced                                   : No
Forced                                   : No
В данном стишке строк мало, 7-8 можно извлечь screen'ами, но есть и гораздо длиннее стихи и песни хоть и детские...
2020 Dec 14; 05:01 PM
Название: Re: Субтитры типа (hard-coded subtitle) есть ли возможность извлечь?
Отправлено: el guahiro от декабря 16, 2020, 21:18:38
Приветствую честной люд!

Всё элементарно, Ватсон! Извлекается на раз-два.
Собственно, вот текст:
Little drops of water,
Make the mighty ocean,
Humble though they be,
Make the mighty ages of eternity.
Little grains of sand,
And the pleasant land.
Thus the little minutes,
Make the mighty ages of eternity.
Such a beautiful rhyme! Now why don't we hear you sing?
Make the mighty ocean,
Humble though they be,
Make the mighty ages of eternity.
Little grains of sand,
And the pleasant land.
Thus the little minutes,
Make the mighty ages of eternity.
To buy from over 1000 titles, visit: www.appuseries.com
APPU SERIES
CONTENT FOR CHILDREN
Теперь, как делал.
1. Скачиваю ролик,  открываю его в проигрывателе и смотрю, через сколько секунд меняется субтитры. На глаз получилось через пять. В терминале режу видео на кадры с периодичностью 5 секунд:
ffmpeg -i videoplayback.mp4 -vf fps=1/5 out%d.jpg2. Удаляю картинки без субтитров (Можно его не удалять). Потом спрашиваю всё в единый PDF:
convert *.jpg out.pdf3. После неудачной попытки распознать текст при помощи tesseract ocr, использую второй запасной вариант: отправляю файл в GoogleDrive. Загрузив, открываю его в Google Docs.
Текст  в Google Docs автоматический распознаётся. Копирую этот текст, либо скачиваю в любом редактируемом формате получившийся Google-документ.

Надеюсь что был полезен. Искренне ваш, el guahiro.
Название: Re: Субтитры типа (hard-coded subtitle) есть ли возможность извлечь?
Отправлено: xub от декабря 16, 2020, 23:32:08
Приветстсвую!
Цитата: el guahiro от декабря 16, 2020, 21:18:38Всё элементарно, Ватсон! Извлекается на раз-два.

Ну, по части ,,элементарности😇" я думаю Вас ,,превзошёл"! Я просто останавливал проигрыватель и делал snapshot'ы😞...
Дальнейшие действия с картинками это уже кому как нравится...

Конечно ваш вариант веселее, хоть какая-то автоматизация. А вот про Google Docs я как-то даже не подумал!

Спасибо, по вашей технологии извлёк текст из остальных четырёх песенок. Хорошо, что не каждый день нужно...

Я просто думал, а вдруг как-то текст вшит отдельно и его можно отдельным файликом «вытащить»... Скорее всего файлика нет и способа его извлечь стало быть тоже.

2020 Dec 16; 03:32 PM