“成精了!”近日,广大网友对谷歌I/O上所展示的AI语音助手发出了由衷赞叹。 的确,谷歌再一次让其他企业的人工智能,看上去像人工智障。昨天,抱着对国内语音技术发展情况的好奇,观察者网先后联系了科大讯飞、云知声、思必驰等语音产业龙头企业,听听看他们怎么评价谷歌AI助手的表现。 先来回顾下谷歌AI助手的表现: “我们在考虑向谷歌学习” 昨天,云知声副总裁康恒对观察者网表示,从谷歌DEMO的效果看,非常惊艳。 云知声副总裁康恒。资料图 他特意提到,谷歌应用所选择的场景十分巧妙——由机器主导,人类来应答和完成任务。而以往大部分是机器满足人类需求,这在实现上会更加复杂。 据他分析,谷歌出彩之处在于:1、足以乱真的自然语音合成技术,并配合自然的口语插入和节奏控制;2、预定场景下的上下文理解能力,在展示中能实现预约任务。 对于外界关心的“国内外差距”,康恒表示,谷歌在技术创新方面还是领先全球半个身位的,有很多顶尖的科学家专注在原创技术突破方面,加上数据和计算优势,这是其他公司很难短期内超越的。 但是,国人也无需妄自菲薄。 视频中,谷歌演示的交互对话涉及语音识别、语音合成、语义理解、自然语言生成等技术。 康恒以云知声为例,目前这些技术均有积累和储备。如今,AI行业均面临着场景落地和优化才能最终实用的挑战。 观察者网也注意到,在I/O大会上,谷歌CEO桑达尔·皮查伊(Sundar Pichai)承认,挑战仍然很大。 随后,在介绍未来的发展方向时,康恒说,“目前,识别与合成技术已经日趋成熟,最难的还是自然语言理解、认知和自然语言生成,是未来几年需要重点突破的,整个行业都是”。 事实上,在推进产业化同时,国内企业一直密切关注和跟进国内外最新的技术进展。 据康恒介绍,云知声在深度学习、远讲识别、深度学习超算平台等,都是国内最先实现产业化应用的。 虽然还没有做出像谷歌DEMO中出现的系统,但他透露:“我们在考虑向谷歌学习!” “作为宣传者,谷歌教育用户意义非常大” 谷歌的厉害之处在于,别人也能做到的事,它可以比别人做得更快。 昨天,思必驰对观察者网解读称,谷歌展示的是未来智能语音服务的发展方向。但在特定场景中,经过大量训练,实现谷歌AI助手的效果并不遥远。 另一方面,与谷歌相比,由于中英文语言逻辑存在差异,国内外企业侧重点也存在不同。 思必驰相关人士坦言,谷歌侧重英文市场。实际上,中英文语音交互中,无论是在语法句法,还是思维逻辑都存在很大不同。 “但不同之中却有相同”,该人士提到,“在自然语言处理等技术中,深度学习、认知计算和大数据等技术都是AI应用的基础,也是行业共同研究和应用的对象”。 他认为,在国际上,中国的基础研究水平属于先进,但是离领先还有较大差距;在应用研究及实际产业应用属于先进,与第一名没有太大差距,甚至部分已经领先。 DEMO中,谷歌AI助手完成了预约理发和预约热门餐厅,这两种服务的实现都是基于实际应用场景的。 不单是思必驰,国内外语音市场,都会将这种场景下的人性化智能服务作为发展方向。 “因为语音助手的应用,必然是如谷歌那样,让人类变懒,让机器更加智能。因此,谷歌今天所展示的技术并不出人意料”。 但不容忽视的是,上述人士强调,“谷歌作为宣传者,在教育用户方面的意义是非常大的”。 譬如,此前,谷歌推出阿尔法狗(AlphaGo),第一次将人工智能普及到普罗大众。 “这次技术展示,再次让用户感受到了在语音助手的重要意义,让人工智能技术以更为直观的样子呈现到大众面前,也为人工智能消费级产品的推广做了铺垫”! “多场景下,语音交互矛盾越发突出” 作为目前唯一在A股上市的语音企业,科大讯飞对于谷歌AI助手是怎样看的? 昨天,科大讯飞对观察者网表示,谷歌的演示视频很好地展示了未来生活中的语音交互技术,是未来人机交互主要发展趋势。 “本届I/O大会上,谷歌AI助手的新功能特性,主要体现在语音交互过程中,系统回复的拟人性”。 与此同时,科大讯飞还提到了“全双工交互”这一名词。 据他们介绍,“全双工交互”是指,在设备扬声器发声时,且不关闭麦克风的情况下,用户可以打断设备的播放,进行语音识别和语义理解。 为此,对方特地向观察者网提供了一段讯飞AIUI的演示视频: 视频3分30秒处,演示“全双工交互” 视频显示,在连续对话过程中,该语音助手不仅在发声的同时听懂了中文指示,而且顺利完成了多项任务。 不过,正如讯飞前文所述,在拟人化方面,谷歌仍处于领先。 另据对方透露,早在2015年底,讯飞就发布了AIUI。其中全双工交互的特性,也是本次I/O大会中谷歌助手的一大亮点。 然而,困难和挑战总是存在的。目前,在诸多场景下,语音交互仍面临许多矛盾。 讯飞坦言,在少量受限场景下,AI能够实现对口语化语言的理解,并且已经实现产品的落地。 “但是随着支持的场景越来越多,在交互中,语音识别效果和语义理解歧义性等问题越来越突出”。 事实上,对于AI的想象,我们不能仅仅停留在语音助手层面。在医疗领域,AI的脚步声已经非常近了。 譬如,本届谷歌I/O大会上,其AI可以在糖尿病视网膜病变和心血管风险方面帮助诊断,还能帮助医生预测患者再次入院的可能性。 无独有偶,今年3月,科大讯飞在生物医学成像领域顶级学术会议ISBI举办的IDRiD眼底图分析竞赛中,在病灶分割的四个子项目中均跻身三甲,更是在其中最难的一项中摘得第一。 眼底图四种病灶示意图 科大讯飞对观察者网指出,通过调研,高水平医生看一份眼底图、找到一个微动脉瘤需耗时4-5分钟;而讯飞系统只需要5秒。并且,速度仍有优化空间。 科大讯飞医学影像辅助诊断系统 文/观察者网 尹哲 |
|