【原】百度大脑的秘境探险

脑极体 2020-10-30

展开全文

人与机器之间，有太多秘密隐藏在未知以下。

比如说AI带来的语义理解与语音唤醒式人机交互，虽然被大家说的很神，但其实有大量难关没有被攻破。AI语音交互，往往还以来初级的符码转化和模块调用，真正让机器像人一样去理解世界，还有很长的路要走。

好在对人机交互深层秘密的探索，在今天并没有停步。一些全新的技术应用化，正在加强人与机器如何交流、协作甚至相互理解的无尽可能。

在刚刚的百度AI开发者大会中，一个重磅升级是百度大脑升级了3.0版本。这次升级之所以引人注目，是因为其在业界首次提出了“多模态深度语义理解”。

多模态、深度语义理解，这些都是我们经常在AI论文中看到的名词，但似乎从来没有科技巨头把这个词作为关键信息进行产业披露。这是为什么？

其中的隐藏信息，是人机交互通往多模态结合、深度转译之路上，一座难以翻越的高峰。

多模态深度语义理解技术，就像一个沉睡的沙漏一样，始终隐藏在细沙之下，让人难以见到真正的应用魅力。而百度大脑的3.0升级，似乎将这个沉睡经年的沙漏倒转了过来，最神秘的AI领域，开始在技术沙粒的流逝间展露了本来面目。

人机交互的秘密：AI界有个雪域高原

20世纪上半叶，社会符号学提出了模态分析的话语批判方式，而后模态理论逐步走入各个学科，成为自然科学、计算机科学与人文科学的重要三岔口之一。而在自然语言处理成为AI重镇之后，多模态话语融合也开始被AI思想家们提上了日程。

我们知道，AI进行语音交互时的基本逻辑，是要把一切语音进行识别，转化为文字符码再进行文本理解。而语音理解与视觉、传感相关的模态融合更是难上加难，堪称人机交互进程中的“高海拔地带”。

但我们不妨思考一下，人的思维方式其实并不是单一模态的信息转化。而是五感并用，语音语义一体化理解，无间隙给出交流反应。

换言之，机器最接近人的交流方式，就是多模态输入与融合化的语义理解。而类似自然交互的技术难点，在于不同模态的视觉、语音、语音、传感信号，是构建在完全不同的数据编码之上的。整合与再学习始终都是AI领域的难点，尤其是应用领域的难点。

价值极大，难度极高，把多模态深度语义理解堆积成了AI领域的雪域高原。无数开发者都在翘首以盼先导者能够翻越这座大山。

在这次百度AI开发者大会上，百度大脑非常自信地将升级矛头对准了这个最神秘的AI沙漏。主打多模态深度语义理解技术的底层开发，可谓打开了通往无尽技术应用与难预测上线的AI大门。

技术乘法：

多模态深度语义理解的应用流沙效应

多模态深度语义理解之所以重要，从应用的角度看，是因为它把视觉、语音、语义、传感，以及泛深度学习类交互整合到了一起，让技术间不再是并行的通道，而是打开了彼此融合的想象之门，并且在利用深度学习技术，强化了语义理解的精准度与容纳范畴，视线了语音语义的一体化融合。可以想见的是，多模态深度语义理解，将会在技术突破之后带来大量的眼神技术与子应用，从而改变我们对AI识别、语音控制、人机交互的边界认识。

或许从此以后，AI技术将不仅仅是做加法，更有可能产生技术细节之间的乘法效应。从百度大脑3.0公布的技术案例，我们已经可以看出类似乘法效应：

在AI开发者大会期间，对多模态深度语义理解技术最直接的感受，在于技术能力突破之后应用边界的想象力爆棚。

比如说百度大脑3.0带来的视觉语义化技术，可以让机器从看清到看懂视频的内容。比如在新零售场景中，摄像头可以通过视频语义化来直接理解顾客的行为动作，以及选取了哪些商品。这样就无需再有复杂的识别条码、刷脸等流程，顾客可以真正的拿起商品就走，产生毫无时间影响的购物体验。

另一个多模态深度语义理解的技术应用，是语音语义一体化带来的。在使用语音导航长Query时，我们经常要简单明了的说清楚导航目标，但假如我们的导航需求比较复杂，或者我们也不太清楚具体的地名，那就会很麻烦。导航中的AI识别只能进行文本唤醒，无法去理解使用者的想法。

在百度开发者大会现场，我们已经见识到在语音语义一体化技术加持后，百度地图的用户可以像绕口令一样说出大量内容，百度大脑会同步听清、听懂和理解相关含义，给出最佳导航路线。

类似的案例还有很多，从中我们可以发现，多模态深度语义理解让AI技术沙漏中的每一颗沙子，都可以排列组合出未知中的惊喜。

戳破最后隔膜：

百度大脑3.0的3件礼物

当开发者想要从传统AI赛道，进入神秘的深层人机交互，需要的并不是高屋建瓴的设想，也不是多么科幻的技术示范。而是脚踏实地，真正建立可以按部就班展开学习、尝试与创造的多模态AI路径。而百度大脑的3.0升级，带来了多模态世界的3个礼物，可以说是带给开发者的核心保障：

1、告别算力问题的“昆仑”：在AI开发者大会上，百度大脑3.0首次将芯片纳入技术体系，推出了百度自主研发的中国第一款云端全功能AI芯片“昆仑”。据了解，昆仑的AI任务处理速度比此前我们常用的FPGA方案快30倍以上。高性能、高性价比，且具有易用性的云端AI芯片，可以与百度的整体AI技术体系结合，带给百度大脑的用户与开发者更多想象力。

2、跳跃的PaddlePaddle：在今年的开发者大会上，百度公布了PaddlePaddle 3.0，在与自主芯片结合，打造全栈解决方案和平台化建设之余，新的PaddlePaddle还开放了多种平台，为不同层级的开发者提供更简单的开发与训练。其中AutoDL可以自动地进行网络结构设计；AI Studio是一个非常实用的在线训练平台。灵活利用更加富有生态化意味的PaddlePaddle，开发者的工作或将得到翻天覆地的变化。

3、便捷获取AI的开发者权能：开发者另一个核心需求，是有足够多的技术应用支撑，来满足天马行空的想象力。假如只有高度抽象，雷同程度很高的技术开放，那么大家很难找到自己的开发机会，尤其是在多模态语义理解带来的全新契机面前。而百度大脑3.0全面开放了110多项AI能力，满足了开发者的技术拼图需求。李彦宏在开发者大会的开场白中说，百度的目标是Everyone Can AI。那么百度大脑的技术拼图和全栈架构，将是百度分享AI，建立开发者权能的必经之地。

百度大脑的升级，可以看做众多AI应用核心的突破。未来无数令人惊喜的AI应用，都将建立在百度大脑的跃升之上。当多模态底层技术不再是奢望，高度拟真的人机交互也就不再遥远。从百度大脑3.0开始，一个沙漏已经倒转，趋于理论最高值的AI未来，正在快速向这个世界挺进。