分享

造就译 | 如何用大数据技术分析1150万份泄密文件?

 造就Talk 2020-07-21
本文节选翻译自《连线》杂志
“How Reporters Pulled Off the Panama Papers, the Biggest Leak in Whistleblower History” & “How the 11.5 million Panama Papers were analysed”

一家在中美洲注册的律师事务所,他的1150万份秘密文件被匿名者交给德国《南德意志报》,这些文件被不知名人士泄露给新闻机构,后者再与100多个新闻机构和400名记者分享信息——这项调查已经持续近1年。

据《南德意志报》报道,此次披露的泄密数据比维基解密(Wikileaks Cablegate)、离岸解密(Offshore Leaks)、 Lux Leaks和Swiss Leaks这几个解密网站披露的数据总和还要多。这使得这次数据泄露成为历史上最大的数据泄露。

ICIJ表示,一些机构积极注册壳公司来帮助富人及政要在全球转移资产,此为资产转移的路线图。

史上最大泄密数据怎样流出?
 
据ICIJ负责人Ryle介绍,文件泄密事件始于2014年末,当时,一位匿名举报人主动联系《南德意志报》。《南德意志报》的记者Bastian Oberway说这位举报人通过加密的聊天软件与他取得联系,表示将会提供某种数据,意图“将这些罪行公诸于众”。但这位举报人称,他(或她)可能“有生命危险”,因此只愿意通过加密渠道联系,并拒绝面谈。

Obermayer问:“到底有多少数据?”

举报人回答说:“你从未见过那么多。”

Obermayer告诉《连线》杂志,他通过多个加密渠道与这位线人联系,而且频繁更换渠道,每一次都会删除所有对话历史记录。他笼统提到曾使用Signal和Threema之类的加密软件,以及PGP加密电子邮件,但拒绝透露他们使用的具体方法。每一次,记者和线人重新建立联系后都会使用事先设定的问题和答案来相互验证身份。

Obermayer说:“我会问‘天气晴朗吗?’他应回答‘月球上在下雨’,或其他莫名其妙的回答,这样我们就知道对方依然是那个人。”

泄密的规模究竟有多大?

实际泄密的文件尚未被公布——国际调查记者联盟(ICIJ)已宣布,将于下月公布泄密文件涉及的完整公司名单——它们到底包含多少数据尚不得而知。

据报道,全部泄露信息包括上述律师事务所的1150万份内部文件。其中包括但并不局限于电子邮件、合同、抄本和扫描文件。总计包括480万封电子邮件、300万条数据库信息、200万份PDF文件、100万张图片和32万份文本文件。所包含信息的总量甚至比维基泄密事件和爱德华·斯诺登泄密案更庞大。

全部信息累计有2.6TB字节。这批文件数据生成的时间跨度长达数十年,从1977年一直到2015年。据ICIJ透露,“这些数据显示,上述律师所与超过1.4万家银行、律师事务所、公司法人和其他中间人合作,为其客户设立空壳公司、基金会和信托。”
最受这些顶级富豪们欢迎的十大避税天堂。文件显示,逾11.3万(每两家就有一家)家企业在英属维京群岛注册。

如何协调几百家媒体的报道?

文件曝光了有哪些跨国银行请求为其客户建立壳公司以及数量,其中Experta公司和信托服务的请求数量居榜首。

Obermayer拒绝透露他们的举报人具体是如何一次性将数百GB甚至上TB的的数据传送给《南德意志报》的,这显然远远超过电子邮件的上限,但如果通过邮寄加密硬盘的方式却很容易匿名转交。Obermayer只是简略地说:“我学到了很多关于如何安全地传输大文件的知识。”

在联系上ICIJ后,ICIJ的技术人员为这些文件专门设计了一种“双因素认证保护搜索引擎”、以及一个通过加密电子邮件与其他媒体(包括BBC、卫报、Fusion和几十家外语媒体)共享的URL地址。这一网站甚至包括实时聊天系统,方便记者们交换意见,查找自己看不懂的外语文件的翻译版。

“如果你想要查阅巴西相关文件,可以找一位巴西记者,”Ryle说,“你还能看到谁已经起床开始工作,并进行公开通信。我们鼓励每个人告知其他人他正在做什么。”不同的媒体机构最终分别在华盛顿、慕尼黑、伦敦、约翰内斯堡和利勒哈默尔组织了各自的面谈。

令人惊讶的是,虽然这些信息被如此广泛地分享,要将数据库中的信息公诸于众还需等待——或许,部分原因在于它是如此的庞大且难以驾驭。Obermayer承认,虽然发生大规模泄密事件的传闻风声四起,但数据本身并未泄露出去。“去年秋天,我一度非常紧张,担心太多人知道了,”他说,“有几个地方曾出现传闻,但范围并未扩大。”

Ryle说,媒体组织并不计划像维基解密一样发布完整数据库,因为这样做会暴露无辜个人的敏感信息,他们的报道只关注公众人物。

在和包括上述律师事务所在内的调查对象取得联系前几周,Obermayer采取了最后一个预防措施:他摧毁了和举报人联系的电话和笔记本电脑硬盘。“这样做似乎有点夸张,”他说,“但稳妥总比后悔好。”

他说,直到现在,他依然不知道举报人的真实身份。“我不知道此人的名字或身份,”Obermayer说,“但我得说,我很了解他/她。有段时期,我与之交谈的时间比我和我妻子还要多。”
 
如何分析1150万份文件?


为了让参与调查的记者能够分享到原始数据,首先需要将其转化成数字格式,这个过程中需要使用高性能计算机,并需要能够在成千上万的细节中搜寻熟悉名字的算法。

为了能够对泄露文件内容进行报道,掌握数据的人必须确保这些数据可被计算机读取,而且能够被搜索。“异类数据很难读取或进行交叉对照,”伦敦大学学院的计算机学副教授Gabriel Brostow告诉《连线》杂志说,“表格、数字、PDF格式文件几乎都无法读取。”

《南德意志报》、ICIJ与软件公司Nuix合作,对文件进行初步分类和整理。Nuix的高级顾问Carl Batton对《连线》解释说,要攻克这些数据,首先需要将它们存储在私人服务器上,切断与外部世界的连接。数据隔离完成后,下一步是给它们编索引。

Batton说:“我们会把信息中包含的文本和所有元数据提取出来,然后我们再从大数据和分析的角度,使用Nuix的技术对其进行调查。”

处理这些数据最大的挑战在于,一开始,大量的文本根本无法被机器识别。最终使用了“光符识别”(OCR)技术将数据转化成可以被计算机读取并搜索的文本。文本提取完成后,就可以插入索引和数据库。据Batton估计,最终的数据库大小只有原始数据的30%。

“经过我们处理后,ICIJ和《南德意志报》可以对数据进行关键词搜索,我们也可以找出其中的关键:比如姓氏、名字和数字,”Batton说,“我还可以用分析工具查找这些名字与文件的关联。”

一旦信息索引完成,再应用算法在庞大的新信息库中寻找特定关联。最后,再将这些自动生成的信息与人工创造的数据结合起来。

《南德意志报》在一篇评论中解释说,“记者们负责提供重要政客、国际罪犯和著名职业运动员等相关名单。”然后用专门创造的搜索工具对名单上名字进行搜索。

这家德国报纸还提到,“涉及政治献金丑闻的名单包含了130个名字,涉及联合国经济制裁的名单包含600多个名字,然而,强大的搜索算法只用了短短几分钟就完成了这些名单与1150万份文件的对比。”

文件显示,在全球空壳公司和影子银行的排行中,中国香港是最活跃的地区,当中的离岸公司高达37675家。

可以说,此次泄密如平地一声惊雷震惊了各大 OFCs,特别是以信息私密性而著称的 OFCs(比如 BVI、开曼群岛、瑞士、 新加坡等),也把 BVI、开曼、库克群岛及其他 OFCs 推到了全球媒体的聚光灯下。

为避免公众产生“数据库所涉及所有 人和公司都在避税/逃税”这样的误解,ICIJ 在其网站上专门公布了一个“Offshore Leaks Database FAQs” 的问答, 详 细地阐述了其选择披露的考量因素。

ICIJ 表示,出于尊重隐私 的考虑,并不打算公布合法使用 OFCs 及境外工具的任何信息,特别是个人信息,只有涉及到公众人物及已经证实与违法犯罪有牵连,才会公开相关信息。公众【不可假定】数据库中所有公司和个人都在避税或逃税,相反,大多数都在合法、合理地使用境外公司和境外信托。

另外,ICIJ仅公布基本的公司信息,公司的详细信息和个人信息 不在公布范围内,比如,会议记录、税务存档、银行账户记录、财务交易记录、电子邮件和其他通信往来、个人的护照信息、个人的电话信息等。

翻译 / 林子


艾星子·艾里 | 保卫子宫,就是捍卫女性尊严

黄少谷 | 流浪三年发不出专辑的乐团之痛

谢晓 | 用严肃重新定义娱乐新闻

蒋美兰 | 为什么网红将改变社交经济?

柏邦妮 | 一场完美的性爱,真是我们想要的吗?

曹军威 | 穿越了13亿年,引力波在这一秒与人类邂逅

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多