许多影印版的 PDF 书籍资料,在阅读的时候都有一个让人很烦恼的问题:无法复制书中的文字内容!尤其这几天在阅读学习《Python 数据可视化》(科斯·拉曼(Kirthi Raman) 著 )这本书,想要记录一下学习笔记复制一些书中文字的时候,无法复制文字的问题简直让我忍无可忍。 Google 百度了一番,尝试了 Chrome 打开 PDF 后,在打印中另存为 PDF、Smallpdf 在线移除密码,以及其他的一些 PDF 解除加密都没有效果。后来才知道,原来我从经管之家使用 100 个论坛币下载的这本《Python 数据可视化》应该是一本影印版的 PDF 文件,而非加密的文档,一开始尝试 PDF 解除加密的解决方法方向本来就不对。应该变成如何从扫描版 PDF 文件中复制文字。 关于 PDF 扫描版与非扫描版,于是 Google 了一下,有这么个答案:
那么,回到原来的问题,扫描版的 PDF 如何复制里面的文字?我是参考了《Acrobat2018怎么使用OCR识别扫描版PDF中的文字?》,完美解决了这个问题。 Acrobat 2017/2018 中不像之前的版本在编辑中能找到写有 OCR 功能的选项,那是因为 ocr 识别改名为“编辑文本和图像”了,下面我们就来看看 Acrobat2018 怎么使用 OCR 识别扫描版 PDF 中的文字教程。 1、打开要识别的PDF,如果该PDF没有加密,那么点击“编辑-编辑文本和图像”或者在任意页面鼠标右击,选择“编辑图像”,就可以进行OCR识别了。 2、进行第一步之后,默认执行的单页的识别,但是如果你要识别整个PDF文件,怎么办? 3、点击图中右下角扫描文档下的“设置”,在弹出的窗口中勾选“所有页面均可编辑”,点击确定,再点击编辑图像时,就可以全篇识别了。 4、但是面对加密的文档,会提示需要“输入口令”,这个时候需要使用软件PDFPasswordRmover,移除PDF的密码,就可以按照上面的方法愉快的OCR识别了。有时也会出现,点了“编辑图像”,但是未能进行OCR识别,只是把当页识别成一整张图片,我也用PDFPasswordRmover处理了一下,然后再进行OCR识别,就没问题了。 以上就是Acrobat2018找不到OCR识别的原因,直接使用编辑文本和图像也是一样的功能,希望大家喜欢。 |
|