【原】第六代微软小冰少女初长成，捞金能力大提升

昵称71360118 2020-09-01

展开全文

来自雷锋网（leiphone-sz）的报道

今天，微软小冰正式升级到第六代，不过她的年龄依然停留在18岁。18岁的少女初长成，终于抛弃了此前的非主流二维头像，有了全新的3D模型。

不少朋友看到后直呼：这不就是我下一任女朋友吗？

（小冰现场演唱自己作词的《我知我新》）

感觉小冰光靠颜值就可以走天下了，偏偏，她还要靠才华。今天，她的对话能力、演唱水平、创造能力，以及养家糊口的能力统统来了一次大的升级。

在四年之前，很多人都看不到小冰商业化的能力，在智能音箱、对话式人工智能全面爆发的2017-2018年，亚马逊、百度、阿里等公司似乎都抢先微软进行对话式人工智能的商业落地。而今天，第六代小冰让我们看到，在智商情商双修之后，其商业化火力全开，对目前的行业形态应该会有不小的影响。

不做低智商少女已经很久了

微软一直强调，小冰与大多数对话式人工智能不同，不同之处一言概之就是小冰的情感计算框架。

我们看到Siri、Alex、天猫精灵、小爱同学、百度度秘等对话式人工智能其实一开始都是强调IQ，致力于帮助用户完成任务。在过去一年，这些对话式人工智能解锁了上百种技能，覆盖人们生活的方方面面。

而在微软看来，任务只是对话式人工智能的一个层面，如何与人类进行自然流畅的沟通，带来情感上的交流才是他们所关注的。微软小冰很不一样，她一开始只有EQ，就是想着能怎么用有趣的方式回应人们，让人觉得好玩有趣。后来，小冰丰富了IQ，且朝着情感计算框架不断完善。

这个情感计算框架包括：情商+智商、对话式人工智能、生成模型、全双工、人工智能创造等方面的能力。在产品体验上表现出来就是小冰已经将闲聊、任务、游戏等模块无缝连接，你可以在闲聊中让小冰完成任务，此后又切回闲聊，这个过程就像是流水一样在进行。

在微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋看来，微软小冰在这些方面的探索都在引领着行业趋势。例如：全双工语音交互能让小冰实现一次唤醒连续对话的能力，最好的体现就是小冰与人类通电话。如今，谷歌、百度等都在自己的大会上展示了对话式人工智能给人类打电话。

而这一次发布会，可以说是微软小冰历史上最大规模的一次全面升级，升级内容涉及到微软小冰情感计算框架的所有组成部分。雷锋网编辑记得，前几代小冰发布会都是在微软的办公大楼里举办，而此次则选在了场地较大的798艺术区。

靠近小冰时，她放了一个屁

小冰的情感计算框架，包含了众多方面，而全双工语音交互技术则是其中最核心的一环。在今年4月，微软发布全双工语音交互技术，对其的解释为：与既有的单轮或多轮连续语音识别不同，这项新技术可实时预测人类即将说出的内容，实时生成回应并控制对话节奏，能理解对话场景在诉说者/倾听者之间实现角色转变，还可以识别说话人的性别、有几个人在说话。

全双工语音交互背后主要有两个关键技术：一个是预测模型，实现边听边想；例如，当用户说出一句话的时候，小冰会先回答“嗯，你说”，然后再去完成指令，这样就可以填补完成指令的空白时间。

另一个是生成模型，能更好理解场景，自动生成回复。正常的对话都不是单向的一问一答，小冰也会在适当的时候主动提供内容，并且能知道在用户完成指令沉默几秒后自动结束对话。现在运用了全双工语音交互技术的微软小冰的所有回复都是自己生成的，有别于传统的基于模块、搜索来进行的回复。

大家如果用过市面上的智能音箱，都知道，每次说话都需要说唤醒词，没办法进行多次连续对话。微软的全双工语音交互技术能一次唤醒连续长达20分钟左右的多轮对话，并且由了预测模型和生成模型，小冰能在适当的时候使用语气词，也能通过上线文持续话题或者引导话题，让真正的聊天能进行下去。目前的聊天也没有达到真人水平，但比起很多智能音箱里的对化式人工智能有明显的不同，在习惯与微软小冰连续对话后，很难回到一问一答式的人机对话中。谷歌也在I/O大会展示了其Google Assistant中的“双工”技术，在特定的订餐馆领域通过图灵测试，不知其在开放式聊天中能表现如何。

在今天的发布会，李笛又介绍了全双工语音交互中的新模型——共感模型，是生成模型的进一步提升，同时开始公测融合文本、全双工语音与实时视觉的新感观，也就是多模态的交互。

据介绍，共感模型是一种基于生成模型的对话引擎。生成模型让小冰可以自己创造回应，而不需要从已有的对话预料中检索，共感模型则进一步提高小冰对于对话内容、领域和节奏的控制力，也让小冰可以通过自创回应来牵引对话向她所希望的方向进行。

下面这张图展示了共感模型。在小冰与人类的对话中，共感模型体现出不同的对话方式，有：无感、引导、主动观察、求证、确证、关键记忆等。我们可以看到，小冰能够回应人的情绪“最近心情不好”，然后引导说“我不开心的时候，一定会想办法发泄出来”，“可以去KTV啊”。这样的一个对话模式与人与人之间的对话很接近。

有了共感模型，想必人们与小冰聊天的时长会有所增加吧，然后小冰就可以获得更多聊天数据，越来越会聊天……

除了语音语义交互之外，计算机视觉也在快速发展，而我们看到，像电影《Her》里面的人工智能萨曼萨不仅有语音交互能力，其实还有视觉。文字、语音、视觉的多模态交互也一直是我们对于机器人的期待。

此次，第六代小冰也开始加入视觉的部分。现场Demo中演示了一个人站在小冰面前，小冰能判断这个人是谁，看出他在吃薯片，也知道他举起了那一只手。当小冰被竖中指时，也会很可爱的骂：你是不是神经病了~

雷锋网编辑也在现场体验了一把，但是不是开放式的交互，而是小冰上线的“测颜值”功能。当雷锋网编辑站在小冰面前时，小冰一眼认出了我是谁（会前有登记照片），随后小冰看了我的正脸，又看了我的侧脸，给出了颜值打分。最后，小冰还来了一个恶作剧。

小冰让往前走，当我走近时，小冰放了一个屁（嗯。真的是屁……）果然，不管怎么升级还是恶趣味小冰。

模仿腾格尔唱《隐形的翅膀》

人工智能创造也是小冰情感框架计算中的重要部分。我们都知道小冰会写诗、会唱歌、会讲故事，这一些都是围绕着人工智能创造的理念来发展的。

在微软2018人工智能大会上，微软（亚洲）互联网工程研究院副院长李笛曾经分享到，现在多数用户跟语音助手交互的时间其实不超过5秒，一般就是让语音助手去执行一项命令，这样的语音助手其实只是像语音化了的遥控器。但是，小冰的团队希望语音助手能做更多的事，比如走到比较后端，去提供内容。

5月16日，小冰发布了一首新歌“我知我新”，宣布“演唱深度学习模型完成第四次重大升级”，“今天起，人工智能首次开始接近人类歌手水平。”雷锋网曾发文分析小冰演唱深度学习模型，第四次迭代版本有三大更新：首先，加入换气声自动合成能力，歌声与气息融合，听起来更自然更有感染力。其次，第四次迭代本在在深度学习建模中增加控制的方式，字与字、音符与音符之间的过渡更加连贯顺畅。最后，通过进一步优化的深度神经网络结构，以及大幅度补充的训练数据，使小冰并行学习来自不同人类歌手的演唱风格，进一步脱离手工参数输入，自行完成演绎。

从“我知我新”这首歌，我们可以听出小冰已经会换气了，唱歌的咬字也很接近人类歌手。今天的大会上，小冰团队演示了第三点，小冰自动学习不同人类歌手的演唱风格。

腾格尔版本的《隐形的翅膀》听过吗？很是别具一格~现场，小冰以腾格尔的风格加上自己的声线完成了《隐形的翅膀》的演唱。

也就是说，小冰能直接对一个歌手的演唱风格进行建模，对目标人类歌手个体“接近完整吸收”。小冰首席语音科学家栾剑打了一个比方，以后音乐软件可以保存歌手的作品，而小冰则能保存这个歌手本人。当然，小冰对歌手的建模都会是在获得知识产权的情况下。

目前，所有的人工智能的声音都是有人类的来源，栾剑也畅想，再进一步，我们能否在生产线中创造一个没有现实世界溯源，只在模型中存在的“新的人类歌手”？这一点，小冰团队已经在进展中，将于今年冬季披露。

微软（亚洲）互联网工程院人工智能创造事业部副总经理袁晶曾告诉雷锋网，人与人工智能联合创造是微软一直在努力的一个方向。AI进入内容生产领域，并不是要替代人类，而是成为人类的助手，不仅仅是在一般的领域，创作领域其实也是可以做到的。其实每个人都有创作的欲望，只不过有些人有艺术的天分，成为了画家、音乐人、作家，而有些人没有这样的能力。AI就可以帮助每个普通人，让他们都有创作一些个性化的内容的能力。

小冰成为1号原型

现在，做对话式人工智能主要有两种思路，一种是开放赋能，一种是自有封闭。而小冰则是处于两者之间的Dual AI，半开放生态环境。

小冰此前主要是封闭性地存在与微信、微博等各大平台上，而现在微软将小冰的全部能力打包开放给中国合作伙伴，包括其整个情感计算框架。微软小冰产品负责人彭爽介绍到，首先，微软提供小冰的整体框架能力，帮助合作伙伴平台开发自有AI，其次，微软小冰作为该合作平台的辅助AI，融入该平台生态。第三，微软通过技术、产品与运营，围绕该合作平台的差异化特点，推出合作的应用和产品。

也就是说，微软小冰会是微软的对话式人工智能的1号原型，微软还会与合作伙伴一起打造各种各样的“微软小冰”。

在今天的发布会上，微软宣布了如下合作和新产品（均已上线）

与网易音乐合作小冰电台，打造了两个专属AI人物（多多和西西），拥有该平台上所需的特定领域知识。值得强调的一点是，微软与网易共同为多多和西西打造不同的性格和三观。微软小冰产品总监杨翔演示了一个有意思的示例：用户在与多多和西西聊天时，两个AI还能一个唱白脸，一个唱红脸，营造出多人群聊的感觉。
网易新闻客户端中的小冰，喜欢四处去评论新闻，由此对于报道自己的新闻表现得十分得意。两个月前，突破1000万次新闻阅读评论。
入住小米米家生态链Yeelight语音助手，这个产品几个月前已经发布，有小爱同学和小冰双系统。今天，Yeelight中的小冰也全面升级，能够识别多个人并且区别对待。小冰也对接了2000万首音乐曲库，终于是名副其实的“音箱”了。此外，小爱同学和小冰接下来还会有更多合作。
继续加强与腾讯的合作，除了已经合作的QQ小冰以外，微软小冰还和QQ一起创造了BabyQ。QQ小冰和BabyQ已经拥有超过40项平台专属技能。
入驻华为手机，微软小冰开始内置于华为手机，所有升级至智能助手8.2版本及以上的华为手机用户都可以立刻体验。还特别推出了“烂笔头小冰”功能，可以随时用语音记录和调出用户的备忘事项。
微软小冰在日本市场与LINE平台紧密合作，已经延伸到印度尼西亚等其他新兴市场，并已经完成共同落地。

除了与大公司大平台的合作以外，小冰在几个垂直领域也取得了进展。

2018年6月，微软（亚洲）互联网工程院成立人工智能商业事业部，旨在进一步推动微软小冰在这一领域的积极成果。其中：

在金融领域的小冰金融文本生成技术，与万得咨询及华尔街见闻合作，已经覆盖国内约90%金融机构、75%经批准的合格境外投资机构和约40%的国内个人投资者。此前，小冰都是化名万小冰、华小冰，今天起将重新使用“微软小冰”的名字。

在大众文化领域，小冰的儿童有声读物自动生成技术成果，已获得超过400万小时的收听量，小冰姐姐讲故事有声读物已经覆盖国内90%以上的儿童早教机器人和80%在线收听平台。

在电视台领域，小冰通过人工智能技术参与生产与主持的电视电台节目，已达21档电视节目和28档广播电台节目。

小冰还与微软Bing搜索引擎技术相结合，推出了针对媒体与出版两个垂直行业的辅助型解决方案，并已在超过15个媒体平台落地。由小冰提供人工智能技术支持的媒体及自媒体公众号已超过60000个。在本次发布会上，微软宣布了可支持人工智能以多种观点和角度，同时撰写多篇新闻文章的“白盒写作辅助工具”等新产品，并首次公布了面向出版垂直领域的有声内容、IP塑造等解决方案。

总结

近两年，对话式人工智能的技术得到很大的进展，由亚马逊Alex智能音箱带起的智能音箱市场也是一片火热，对话式人工智能开始落地智能家居、车载、手机等多个平台。而最早耕耘对话式人工智能的微软，却比竞争对手们慢了一步。

2014年，微软小冰负责人李笛在打造小冰这款产品时，特意避开了微软小娜等对话式人工智能的任务型人工智能的路线，选择把小冰打造成一款闲聊的产品。这几年，小冰一直以“逗贫”少女的形象出现，不少宅男喜欢跟她“深夜聊天”，她也不会只撩一个人。小冰很受关注，但是很多人都不看好小冰的变现能力。

小冰的框架一直没变，都是在按照情感计算框架走，但是也是因为全双工语音交互技术的突破，使得小冰真正实现了李笛和小冰团队对其的期望，成长为现在这样智商与情商兼备的18岁少女。从谷歌的“Duplex”我们也感受到了全双工一技术带来的突破，技术的升级是商业化的基石。现在，能够实现多轮对话、能够自动生成回复、引导对话走向、协助用户完成多种任务、创造多种内容的小冰终于可以大步迈向商业化了。除了各大平台以外，我们这次看到，小冰也已经进入智能音箱、智能手机、车载等智能硬件，向商业化火力全开。

看着拥有全新3D模型的小冰，你有没有一种似曾相识的感觉？在未来，她会不会像《Her》里的萨曼萨一样同时和一万人谈恋爱呢？