科技有温度。 近日,微软的外包商向媒体爆料,他们正在收听和分析从Xbox游戏机上录制的用户对话。 THE VERGE报道,微软外包商承认听取了Xbox One的录音 据了解,绝大多数情况下,这些用户的对话音频,是通过Xbox的体感摄像头Kinect录制的,大部分是用户主动触发命令后录制上传,有些则是在用户不知情的情况下意外触发并录制上传。 这其中,还经常有孩子的音频被上传,因为游戏机的用户多为孩子。 停不下来的窃听风波 微软并不是第一家被爆“偷听”用户对话的科技公司。 今年4月,亚马逊被爆在世界各地雇佣了数千名员工,对Echo音箱捕捉到的录音进行转录、注释; 今年7月,苹果被爆其语音助手Siri泄漏用户隐私,用户与Siri的对话可能会被录音,并且上传至苹果,由苹果分发给Siri的外包公司进行分析; 同样是今年7月,谷歌承包商泄露了超过1000份用户与谷歌助理交谈的录音,录音来自于Google Home智能音箱以及语音助手…… 对此,亚马逊、苹果、谷歌的回应基本一致,“偷听”是为了提高各自旗下语音助手的智能性。 CNN近期的一篇报道专门讲了这个问题,并提到了为什么这种行为不太可能停下来。 CNN的报道,其认为科技公司不会停止听取用户和语音助手的对话 CNN认为,AI并不是魔术,各大科技公司推出的语音助手背后,都是机器学习算法模型在提供支持,而在训练算法模型的过程中,必须收集足够数量的语音数据,并交给人类进行标注,数据标注得越准确、数量越多,模型的效果越好。 简而言之,语音助手的进步,离不开人的介入,而人在介入过程中,又势必会接触到原始语音数据。 问题是,作为语音助手的用户,势必不愿意自己和AI对话的内容,在自己毫不知情的情况被另一个陌生人听到。 绕不开的人工数据标注 在几大科技巨头被爆陷入“偷听门”的事件中,都可以看到第三方外包公司的身影,这是数据标注的特点决定的。 目前的机器学习,通常使用的是监督学习,这需要有标注的数据来作为经验。而“数据标注”的对象则集中在文本、图片、音频、视频四个种类。 比如,图片标注包括了图像分割、物体检测、图像语义理解、图像生成、图片加注等标注方式;音频标注包括对方言、特殊情景语音进行识别标注等。 美国波士顿的一名亚马逊外包员工告诉媒体,他积累的语音资料里就有像“泰勒·斯威夫特”(Taylor Swift,美国创作型女歌手)这样的单词,他会对这个词语进行注释,以表明这是一位音乐艺术家,这有助于AI未来正确理解“泰勒·斯威夫特”的含义。 泰勒·斯威夫特 数据标注虽然重要,但做起来技术含量并不高,只是费时费力,因此大型科技公司一般都将数据标注的工作外包给专业的数据服务平台。让专业的公司去做专业的事情,不仅提升了效率,而且实现了低成本高精度的标注。 值得一提的是,在数据标注工作开始之前,科技公司都会先对数据进行清洗,得到符合要求的数据,再进行标注。数据清洗包括去除无效的数据、整理成规整的格式等过程,在标注过程中,又分为不同类型。 不会反向追踪到用户 那么,在数据标识的过程中,到底会不会泄漏隐私?毕竟,从媒体曝光的内容来看,科技公司所掌握的录音,内容太过“丰富”。 比如,苹果外包公司的员工透露,他们所听到的录音内容有数不清的毒品交易、医患交谈、商务谈判甚至还有夫妇性行为的音频,亚马逊的外包商也经常能听到,诸如女人在淋浴时唱歌、孩子大声呼救,甚至被认为是与性侵等犯罪有关的声音。 今年上半年,外媒VentureBeat针对这个问题,采访了语音助手领域的主要厂商(亚马逊、苹果、谷歌等),大部分公司都提到,在数据收集和审查中会进行隐私保护和数据脱敏。 亚马逊表示,在第三方进行数据标注时,亚马逊会使用多因素身份验证、限制访问、服务加密和审核控制环境来保证所有信息的高度机密性。 苹果为审查而保留的语音是加密和匿名的,与用户的姓名或身份无关,人类审查员不可能接触到用户的具体信息。 谷歌称其使用的音频片段与任何个人身份信息无关,并且转录在很大程度上是自动化的,谷歌员工不经手处理。此外,如果使用第三方服务来审查数据,则“通常”只提供文本,不提供音频。 也就是说,科技公司用来训练语音助手所收集的用户录音或者其他数据,是通过匿名处理的,并不能反向追踪到具体用户。 当然,科技公司在这方面也有待持续改进,使用更好的方法来进行AI训练。 今年3月,谷歌推出TensorFlow Privacy,这是一种差异化隐私技术,在用户数据上训练的AI模型,不会学习或记住特定用户的详细信息,能更加保护用户的隐私。 谷歌还表示,正在开发不需要人类介入数据标注的技术,这当然是最让人放心的解决方案。 |
|