使用EsrXP提取视频文件中内嵌字幕（硬字幕）的方法

univasity 2012-09-11

展开全文

1 准备工作：EsrXP……内嵌字幕截取软件

CAJ浏览器……OCR文字识别软件

格式工厂……视频格式转换软件

SrtSubMaster……字幕编辑软件

2 提取步骤

2.1 视频格式转换

由于EsrXP的视频播放应该是用的Media Player控件，跟你系统的Windows Media Player有关，如果你用WMP播放不了，那么ESRXP绝对打不开，所以建议你用“格式工厂”先将视频转换成WMP可播放的格式（例如MPG，AVI等），然后再用ESRXP提取字幕。

使用EsrXP提取视频文件中内嵌字幕（硬字幕）的方法 - usccsu - usccsu

图1 格式工厂

图2 截取视频

图3 开始格式转换

注：到底EsrXP能识别哪一种格式，这都说不准，所以得多试试，视频格式转换的时候可以截取视频的一小段进行测试，可加快测试速度。有时候视频太大，EsrXP也不能显示视频，所以手上必须得有一个视频转换分割工具，本人亲自测试过好几款流行的视频转换软件，格式工厂是速度最快、效果最好的一款。

2.2 EsrXP提取字幕

2.2.1 打开影片

图4 打开影片

2.2.2 设置过滤器

图5 打开过滤器

图6 调整字幕区域

注：可以先点选“Full Width”按钮，调整上下区域时先将下面数值调到位，再调上面的数值，因为区域是以从上往下的顺序，所以上面数值的极限就是下面的数值，试一试便知道我说的是什么。

图7 设置识别参数

注：这里应该是最为关键的地方，参数是没有一个固定的设置，要根据你的视频的字幕色，底色等等进行调节，不懂没有关系，每一个选项都上下调整试一试，总之一个原则，使识别的字幕既完整又清晰。多试吧！

图8 设置识别参数

注：这几个选项我一般按默认地设置，我试着改了几次，好像都没有影响。

2.2.3 开始提取

图9 开始提取字幕

注：等几分钟吧，这得看视频文件的大小。

2.2.4 编辑

图10 打开管理器

图11 删除重复或多余的字幕图片

注：这一项工作的工作量也不小，注意多使用“放大”，“缩小”按钮以及“拖选”的技巧。

图12 删除按钮

图13 勾选高质量选项

注：许多人可能没注意到这一选项，勾选它可以大大增加后续文字识别的准确度。

2.2.5 保存OCR图片

图14 保存字幕图片文件

图15 OCR图片文件选项

注：第一个选项是指每张图片中有多少行字幕，这个随便；第二个选项指字幕分几栏，为了后续编辑的方便，建议还是设置为1。

图16 保存的字幕图片文件

2.3 文字识别

具有OCR文字识别功能的软件非常多，随意选择一款便可以。作者习惯于使用CAJViewer，因为它识别准确率较多。但使用CAJViewer先得将”OCR图片”转换为PDF文件，然后在CAJViewr中打开该PDF文件，接着是选择图像，OCR文字识别，发送到Word（亦可复制粘贴到Text文件）。本人亦测试过许多流行的OCR文字识别软件，准确率都不高，不知是何原因，大家可以Baidu或Google一下相关内容。