分享

PDF文档数据难处理?资深记者教你几招 |

 rongycd87 2019-09-08

不少机构选择用PDF格式对外公布信息,避免遭篡改,而这样做却给记者和数据工作者们带来了不大不小的麻烦:文字尚且可以复制粘贴,但表格一经粘贴就乱了顺序,只能新建一张表。

有没有一些省时省力的工具呢?

有的。南非资深数据记者Laura Grant根据多年的经验推荐了一组简单好用的工具,以及使用PDF文档的小技巧。

Tabula

Tabula是个免费的工具,可靠且易用。其官网上称其“由记者设计,为记者服务。” 难怪深受广大非计算机专业人士的欢迎。

Tabula的一大好处是允许用户先上传一整份PDF文档,再选择其中的表格,一次导出单个或多个均可。输出的格式包括CSV和JASON的TSV,便于之后再用Excel、Google Sheet或Libre Office Calc等软件打开。

然而对于经过扫描生成的PDF文档,或者横向放置的表格,Tabula就无能为力了,但可以用接下來介绍的其它软件解决。

Cometdocs

Cometdocs同样深受记者欢迎,其中一个原因是美国的调查新闻从业人员可以免费成为其高级会员,而另一个原因就是操作简便。

对于普通用户,Cometdocs可以每周免费转换五份PDF文档,超过这个数量就要收费,价格是每月9.99美元。如果一次性支付130美元则可以终身使用。

使用的时候,将需要转换的PDF文档上传,点击“转换”(convert)键,再选择输出的格式是Excel或ODS(用于Libre Office软件),但缺点是不支持CSV格式。

Cometdocs的一大特点是支持光学字符识别(Optical Character Recognition, OCR)技术,可以用于经扫描生成的PDF文档。由于其未必百分百准确,所以转换后仍需仔细检查一遍。

与Tabula一样,Cometdocs不能识别横向放置的表格。

Adobe Export PDF

PDF的这个官方转换工具需要付费使用,但24美元一年的价格并不算离谱。

你可以在官方阅读软件Adobe Reader上使用该转换工具,转换后直接用Excel、Word、PowerPoint或RTF打开新文档。

与Tabula类似,Export PDF可以快速处理大文档,但也同样不适用于扫描件或横向转置的表格。

Nitro Pro

Nitro Pro适合商业人士,功能强大但价格不菲,大约需要160美元。其缺点是只能用于Windows操作系统,将广大MacBook用户排除在外。

Acrobat Pro

同样是PDF官方出品,Windows和Mac均适用,但每月收费15美元,而且最少要订购一年。

Zanran

同样是收费软件,但可以试用,只要文件小于1.5MB,并提供你的邮箱。转换后的文件将以电子邮件的形式发送给你。

Zamzar

同样是需要用邮箱接收文件的网上软件,但好处是免费使用。

PDF转换的其它技巧

表格转置

有些出版物出于空间的考量会把表格“打横”放,如果是印刷品还可以将其旋转90度后阅读,电子版的话就只能转动你的脖子了。

PDF文档也会有类似的问题,而且这种横向放置的表格一般不能被转换软件识别。解决的办法是先转置PDF中的表格,主要的工具有前面介绍过的Nitro Pro或Acrobat Pro。

Acrobat Pro的用法是:

  • 对于一份较大PDF文档中的若干表格,较好的方法是先打开文档,使用“Organize Pages”选项提取出含有表格的那几页,每一页生成单独的文档。

  • 打开包含表格的页面后,选择“View”菜单,将表格旋转至垂直的方向。

  • 打开“”Enhance Scans”选项,选择Recognize Text,确保选中“Save as editable text and images”。这可能要花几分钟,并且完成设置后可能表格又转回去了。

  • 回到“View”菜单,将表格再度调整至适当的方向并保存文档。

  • 你可以尝试将表格转换成Excel的格式,但经验表明用Tabula效果更好。

  • 再次检查转换后的文档,尤其是看看”8″是否被误作”6″或”B”。

导出扫描件中的表格

在扫描的PDF文件中,一般软件会将表格识别为图片而非文字,所以你首先要做的是将表格用具有光学字符识别(OCR)功能的软件转换成文字。

可以选择的软件包括前面提到的Cometdocs、Acrobat Pro或Nitro Pro。

对于扫描效果尚可的文档,Acrobat Pro的“Enhance Scans”工具足以识别其中的文字。有时候,先用截屏的方式将表格保存为一份单独的文档可能效果更好,然后再用Tabula转换成CSV格式。

有密码锁的文档

有些PDF文档被作者加了密码锁,未经授权用户不能随意编辑或将其转换为其它格式,但也不是没有解决办法。

苹果Mac用户可以使用电脑上的“Preview”功能打开PDF文档,然后在“Menu”菜单中选择“Export as PDF”。这样你就生成了一个新的未经加锁的PDF文档,基本上可以进行数据转换。

编译/周穗斌

编辑/Ivan Zhai,梁思然

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多