分享

Facebook如何使人类的交流趋同化

 黄昌易 2019-03-21

在线服务要求内容可以简易分类。

原作者 David Auerbach

原出处 Medium

“你们既然张口结舌,不愿谠言,且用无声的符号来表示心愿吧。”

——莎士比亚,选自《亨利六世》上篇

“我对千禧一代的感觉很不好。天啊,他们要用标签来定义交到他们手中的世界。”

——Ottessa Moshfegh

在线服务所鼓励的初级层次的用户反馈是一个特点,而不是漏洞。对一台电脑而言,解读“喜欢”或“五星好评”的意义比解析原始文本的意思可容易多了。

Yelp的用户评论是吸引美食爱好者的必要组成部分,但如果没有星级评级,Yelp就不可能存在,星级评论可以方便消费者查看迄今为止的所有排序,过滤和历史分析(例如,追踪餐馆的评价是否变差了)。这恰好引出了我想要谈的。

互联网数据第一定律

在任何计算机情境下,“明确结构化的数据”流动至顶层。

“明确结构化”数据是指任何附带分类、量化或排序的数据。这种数据是独立的,使用起来不需要借助任何更广泛的情境。

相较于存在于人类语言、影像和视频中的非结构化数据,存在于结构化且可量化的情境中的数据——无论是DSM、信用记录、龙与地下城(Dungeons & Dragons)、金融交易、Amazon产品类别还是Facebook个人资料——对于算法以及使用这些算法的人和公司来说将变得更加有用和重要。

在互联网时代的早期,这个定律还略显模糊,因为可明确量化的数据很少。明确量化的元数据强调了算法倾向于明确量化的数据。换言之,互联网早期是一个失常年代。

回看起来,早期的互联网是一个明确量化过程的非典型开端,这个过程随着Facebook、Snapchat、Instagram和Twitter等社交媒体平台的出现而开始,这些社交平台都是新规范的一部分。这也包括了Amazon、eBay和其他使用明确量化数据的公司。

网络2.0并非关于社交媒体本身,而是关于社交媒体的分类。更广泛地说,是生活的分类。对于非结构化数据,Google可谓物尽其用,挖掘了数据一切可利用的价值。而互联网的不断成熟也要求内容组织更加明确,以便于计算机进行分析。而大规模挖掘非结构化数据的最佳办法是雇佣使用者来产生这种数据。

明确量化的数据要求先对数据进行标记和分类,然后再分类和排序。像国会图书馆(Library of Congress)这样的档案馆项目并不是对书籍本身进行整理,而是开发总体分类,以确定书籍合适的排序。不先分类,就无法分类拣选。即使是在机器学习中,“无监管”时的表现也会较差——“无监管”是指机器没有预先存在的分类框架。

互联网数据第二定律

对于任何数据集,分类这个过程比分类对象更重要。

数据分析的结论和影响更常来自于分类,而非数据本身。Facebook将人分成多个组别时,例如“啤酒爱好者”或“时尚狂魔”,并没有什么重要特性将该组的人联系在一起。就像Google的秘密武器,Facebook的分类并没有什么大秘密。它只是所有个体因素的混合,当总结到一起时,碰巧让类别检测器出错了。

无论是什么导致 Facebook 判定我有非洲裔美国人的“种族相似性”(是因为我浏览记录里有Sun Ra吗?),在人类的角度看来,这并不是什么能让人明确地认为我有这种相似性的判断依据。

相反,重要的是,这样一个类别决定了我将来会被如何对待。该类别的名称——无论是“非裔美国人”、“少数民族”、“非洲人后裔”还是“黑人”——比该类别的评判标准更重要。Facebook 学到的关于这些类别的标准将在很大程度上发生重叠,但最终的分类在不同情况下都具有明显不同的含义。

但标准之间的差异是模糊的。我们从未见过这个标准,且大多情况下,这个标准是随意的或完全错误的。对分类的选择比分类的实施更重要。

在这里,Facebook 和其他计算分类器加剧了现有的临时分类法的问题。DSM的类别更多地影响如何看待患者群体而不是每个人的潜在特征,因为它是进入数据综合的类别标记。

一个人对经济的看法更多地取决于失业的定义(是否包括那些不再寻找工作的人、兼职工人、临时工等),而不是公民的原始经验和意见。您对自己健康的看法更多地取决于您的体重、饮食和生活方式是否被归类为“健康”或“不健康”的分类,而不是原始统计数据本身。甚至一个类别的名称——“胖”、“超重”与“肥胖”——都带有关联性,会被用于解读这个分类。

有些分类相对于其他分类更成功和受欢迎。

互联网数据第三定律

更简单的分类会击败更精细的分类。

反馈机制(点赞、星级等等)的简单性是刻意的。互联网服务可以在需要时处理复杂的本体,但业务和技术惯性会优选更简单的本体。Facebook过了10年才增加了“点赞”之外的反应,并长期抵制增加“不喜欢”按钮的要求,导致用户对死亡公告和政治丑闻也被迫只能选“点赞”。

Facebook更喜欢简单的感兴趣/不感兴趣双选指标。Facebook最终决定安抚其用户,在原有的基础上增加了五种情绪:爱、大笑、惊叹、悲伤和愤怒。后两个负面情绪的加入并非巧合:“悲伤”和“愤怒”比其他情绪更模糊。当我对某事表达了积极反应时,意味着我感兴趣。如果对某事感到难过或气愤,我可能仍感兴趣,也可能我想避开此事。这些反应对 Facebook没多少用处。

Facebook的六种反应类似于表情符号,因为它们允许用户以非语言方式表达情感,但对 Facebook更有用。因为比起数千个表情符号,这六种反应包含的分类更简单。BuzzFeed采用了一种类似的、稍微简洁的方案,允许用户发布对文章的反应。BuzzFeed的计划是为市场研究量身定制的:内容可能令人惊讶、可爱、令人震惊和有趣等。

Bloomberg 的Sarah Frier解释了Facebook制定新的反应的方式:

Facebook 研究人员通过编制人们就帖子最常发布的回应来启动该项目:比如说,“哈哈(haha),”“放声大笑(LOL)”和“天啊,好有趣(omg so funny)”都进入了笑声类别……然后他们将这些类别最终归为六种常见的反应,Facebook称之为反应:愤怒、悲伤、惊叹、哈哈、“耶”和爱…… Facebook 发言人表示,“耶”最后被拒绝是因为“它没有被普遍理解”。

具有讽刺意味的是,相较复杂的体系,这些原始情绪更能实现较复杂的分析——这是简单分类往往能击败更复杂分类的一个重要原因。对文章的书面评论并没有给 Facebook 带来更多数据,毕竟从模棱两可的书面文字中琢磨情绪太难了,除非文本简单得只有“放声大笑”或“太棒了”这样的话。

但六重分类具有多种优势。Facebook、BuzzFeed和他们的同类平台都在寻求通用和明确的情绪。不同国家、不同语言和文化背景中的人对这些情绪反应的选择应该是基本一致的。

情绪也使得用量化的方式对比各类帖子更加容易。用户自己将文章分类成“有趣”、“开心”、“悲伤”、“暖心”和“恼火”。光是通过查看文本回复,很难判断“加拿大在贸易协定议题上停滞不前”和“流行歌手退场”之间有什么共同之处。但如果当他们都激怒了用户,而用户点击了“愤怒”图标后,那么Facebook就可以检测到二者的共性了。

这些分类可以让Facebook将用户的情绪与类似的分类文章相匹配,或者在他们感到悲伤或愤怒的时候尝试让他们振作起来。如果用户对一篇文章的反应不一,Facebook可以建立子分类,例如“有趣-暖心”和“暖心-震惊”。它可以跟踪哪些用户做出的更多的反应是愤怒或笑声,然后预测他们将来会对哪些内容做出反应。

Facebook可以隔离脾气特别暴躁的人并减少他们在其他用户面前的曝光,以防止他们拉低用户的人数。它通过训练算法来就用户尚未做出反应的文章进行猜测。

最重要的是,即使这特定的六种反应不是默认和通用设置,Facebook的选择将强化它们作为默认设置,通过反馈循环使它们更具有普遍性。我们越多地按照六种表情对我们的反应进行分类,就越会在更大程度上用这些术语来衡量自己的情绪。

默认的六个表情可以消除Facebook在使用更大的情绪集进行测试时观察到的差异性。这个更大的情绪集都出自Disney-Pixar的Matt Jones之手,包括从钦佩和肯定到生气、愤怒和恐怖的所有情绪。

与这个面面俱到的清单想比,简单的分类胜出。它既易于使用又更具普遍性——以牺牲文化和个人差异为代价。此外,按研究人员Dacher Keltner对Radiolab的Andrew Zolli的说法,就是“牺牲了幸福感”。

表达“快乐”最多的国家实际上并不是现实生活中最快乐的国家。相反,正是这些国家使用了最广泛的标签,在社会健康、福祉、甚至长寿的各种衡量标准方面都做得更好。凯尔特钠告诉我:“这无关于最幸福,而是关于情感最多样化”。

如果这种有限的六种反应集会缩小情感的多样性,社交媒体和广告公司则将这种权衡视为更好地收集用户数据的必要成本。Facebook使用的有限的情绪语言是计算机可以大规模理解和操纵的语言。

这组核心情绪反应的简化语言弥合了计算与人类之间的鸿沟——比DSM过于复杂的特殊分类更为成功。相反,这些反应集让人想起更简单的民间分类法Myers-Briggs、OCEAN和HEXACO,它们也将复杂现象分解为少数几个轴。Facebook的情绪反应甚至可以大致映射出五大人格:

喜欢:宜人性

爱:外向性

惊叹:开放性

悲伤:神经质

愤怒:尽责性

出局的是“哈哈”。尽管大笑是最普遍和毫无疑问的表达方式,但一如既往地未被归入简单的分类。而对于其他五个,也不可避免地磨平了文化差异。尽管Facebook的实证研究概括了六种情绪,但公司并没有真正在不同文化中捕捉到同样的情绪——相反,它发现了多种文化可辨识的若干情绪。

如果数据挖掘者和用户剖析师能够摸索到门路,那么我们很快就会步调一致地表达爱意、惊叹、悲伤和愤怒。

“反应”的语言是一种原始的情感词汇,比我们的人类语言简单得多,更适用于计算机和计算分析。1999年,当我将图形情绪引入到Messenger客户端时,还完全没有预见到这些改变。

2015年左右,我开始注意到我的Facebook留言墙上的一个变化:讨论更少了。我认识的人更倾向以带有“yeah”或“ugh”等单音节词、简单的表情符号或 Facebook 的六种反应去回复帖子。令我沮丧的是,我自己也是这么做的。

我重新查阅了2009 年和 2010 年的帖子。那时候我写的还是完整的句子和论证。这种转变明显而巨大。多样性、微妙的差异和模棱两可的部分减少了。如果我强烈反对“yeahs”或“ughs”这类的人云亦云,其他用户更有可能会抨击我。

任何异见者也可能遭遇同样的对待。这个世界怎么了?这些人可是我的朋友啊。可他们已判若两人。我们已经被标准化了,我们全部都在讲一种全然不同的语言:即Facebook语——计算机的语言。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多