1 准备工作:EsrXP……内嵌字幕截取软件 CAJ浏览器……OCR文字识别软件 格式工厂……视频格式转换软件 SrtSubMaster……字幕编辑软件 2 提取步骤 2.1 视频格式转换 由于EsrXP的视频播放应该是用的Media Player控件,跟你系统的Windows Media Player有关,如果你用WMP播放不了,那么ESRXP绝对打不开,所以建议你用“格式工厂”先将视频转换成WMP可播放的格式(例如MPG,AVI等),然后再用ESRXP提取字幕。 图1 格式工厂 图2 截取视频 图3 开始格式转换
注:到底EsrXP能识别哪一种格式,这都说不准,所以得多试试,视频格式转换的时候可以截取视频的一小段进行测试,可加快测试速度。有时候视频太大,EsrXP也不能显示视频,所以手上必须得有一个视频转换分割工具,本人亲自测试过好几款流行的视频转换软件,格式工厂是速度最快、效果最好的一款。 2.2 EsrXP提取字幕 2.2.1 打开影片 图4 打开影片 2.2.2 设置过滤器 图5 打开过滤器 图6 调整字幕区域 注:可以先点选“Full Width”按钮,调整上下区域时先将下面数值调到位,再调上面的数值,因为区域是以从上往下的顺序,所以上面数值的极限就是下面的数值,试一试便知道我说的是什么。 图7 设置识别参数 注:这里应该是最为关键的地方,参数是没有一个固定的设置,要根据你的视频的字幕色,底色等等进行调节,不懂没有关系,每一个选项都上下调整试一试,总之一个原则,使识别的字幕既完整又清晰。多试吧! 图8 设置识别参数 注:这几个选项我一般按默认地设置,我试着改了几次,好像都没有影响。 2.2.3 开始提取 图9 开始提取字幕 注:等几分钟吧,这得看视频文件的大小。 2.2.4 编辑 图10 打开管理器 图11 删除重复或多余的字幕图片 注:这一项工作的工作量也不小,注意多使用“放大”,“缩小”按钮以及“拖选”的技巧。 图12 删除按钮 图13 勾选高质量选项 注:许多人可能没注意到这一选项,勾选它可以大大增加后续文字识别的准确度。 2.2.5 保存OCR图片 图14 保存字幕图片文件 图15 OCR图片文件选项 注:第一个选项是指每张图片中有多少行字幕,这个随便;第二个选项指字幕分几栏,为了后续编辑的方便,建议还是设置为1。 图16 保存的字幕图片文件 2.3 文字识别 具有OCR文字识别功能的软件非常多,随意选择一款便可以。作者习惯于使用CAJViewer,因为它识别准确率较多。但使用CAJViewer先得将”OCR图片”转换为PDF文件,然后在CAJViewr中打开该PDF文件,接着是选择图像,OCR文字识别,发送到Word(亦可复制粘贴到Text文件)。本人亦测试过许多流行的OCR文字识别软件,准确率都不高,不知是何原因,大家可以Baidu或Google一下相关内容。 图17 将图片转换为PDF 图18 CAJViewer打开PDF并点“选择图像” 图19 框选识别区域 图20 进行文字识别 图21 将识别结果发到Word
2.4 字幕初步编辑 CAJViewer识别的文字并不能达到100%的准确度(同时受EsrXP的影响也非常大),当然还没有任何一款软件能达到如此高的准确度。所以,将识别的字幕拷贝到EsrXP左侧的编辑框,对照右侧的字幕图片进行校正。(或对照PDF文件的字幕对Word文件中字幕进行校正。) 图22 校正前 注:当时忘了抓图,这是编辑好之后随意调的。 图23 校正后 图24 保存srt字幕文件
2.5 字幕精确编辑 如果初步校正是在EsrXP中完成那么更为简单直接导出为srt字幕文件便可以了。最后使用SrtSubMaster软件,对照视频,进行准确的断句和再校正工作。 图25 用SrtSubMaster编辑字幕 注:这一步事实上十分地必要,我们可以看到,不论是EsrXP字幕识别还是OCR文字识别,都不能100%保证没错误,所以再校正工作还是需要的。 2.6 字幕的发布 将编辑好的srt字幕文件改得与视频文件同名,同时将srt文件放在视频文件的同一目录下,播放器便可以自动调用相应的字幕文件进行显示。 |
|