2023年，大模型虚拟人开始给娃上课了

源源不断 2023-08-02 发布于宁夏

展开全文

“生意上没有一劳永逸的事，只有不断创新才行。”

文｜《中国企业家》记者赵东山‍

编辑｜李薇

头图来源｜受访者

“你的下一个外教，何必是外教？他可以是大模型加虚拟人。”这是若轩在试用完Hi Echo的感受。

若轩最近沉迷于Hi Echo这款APP。打开Hi Echo点击通话，名叫Echo的虚拟人就可以提供7×24小时私人英文口语陪练。这款网易有道推出的AI虚拟人口语教练产品，底座基于网易有道研发的教育垂直大模型子曰。

不同于通用大模型，子曰从一开始就定位为一个场景为先的教育垂类大模型。

时间回到2022年11月底，ChatGPT发布之后，周枫试用后感到非常震撼。他跟算法团队来来回回地用，测试它的能力底线，在公司内部评测模型不同能力的细节。为了了解更多技术细节，周枫把从GPT-2开始的所有语言模型相关的论文全部读了一遍。他和团队一直在思考，ChatGPT、大模型跟有道到底有没有关系？有道到底要做什么？有没有合作方可以调用？

2023年1月，有道内部召开年度战略会，这是公司每年的传统，周枫把总监以上的团队集中在一起连续开三天会。不同于往年，今年周枫让有道首席科学家段亦涛讲了一个多小时的GPT相关的技术，让大家做了充分的讨论。

来源：受访者

一部分同事对即将到来的技术浪潮还很懵。最苦闷的要数翻译团队——残酷的现实摆在面前，之前干的事情都没用了。

当时，美国可汗学院等教育公司已经开始尝试接入GPT-3.5，做一些教育服务尝试，但国内还没有能力综合又非常成熟的可以接入的模型，必须得自己做。

很快，周枫就和团队达成共识。“新一代技术来了之后，有道一定要抓住，不能做鸵鸟。如果你抓不住，你掉队了，从此就是一个跟随的角色，何况原来也有一些技术优势。”周枫告诉《中国企业家》。

2023年开年，有道内部就开始紧锣密鼓地研发垂直大模型，各个场景的应用申请也不断发起。周枫要求每个业务团队都要关注大模型，在他看来这是十年甚至几十年才一遇的机会。

除了有道内部，网易集团和创始人丁磊也给予了足够的重视程度。丁磊亲自抓集团内部的AIGC大赛，并亲自做评委主席，Hi Echo的虚拟人外教正是有道与网易游戏合力研发的结果。

截至今年7月，网易有道除了自研教育垂直大模型之外，还基于自研大模型推出“AI虚拟人口语教练”“LLM翻译”等6大应用。

在周枫看来，一个好的技术有没有价值、能不能发挥巨大的作用，很多时候关键在场景和应用的选择以及细节的打磨。

抓场景和应用

作为资深技术从业者，周枫过去20年见证了好几轮技术变革浪潮，历史经验告诉他，每一次大的浪潮里，机会不仅仅在于基础技术。就像互联网发展之初，做服务器和路由器的公司最赚钱，但大家很快就发现互联网的精髓不在路由器，而是在互联网应用上。

大模型来临之后，周枫立马想到的就是应用和场景：“大模型作为基座支持很多下游任务，这是它非常重要的优势，抓得越早，后边可抓的东西越多。如果眼睛全盯着要去做大模型，就像移动互联网时整天盯着怎么做手机，而忽视了微信、淘宝、抖音等应用的机会。”

在结合过往业务寻找落地场景应用的过程中，周枫有两个原则：第一，解决用户的需要；第二，能快速变现，有足够的商业空间。他认为，即便是200亿参数的模型能力，也可以解决教育方面很多的问题。

当然，周枫也深知没有一个办法可以解决所有问题。但从2006年网易有道成立，周枫相继做了有道搜索、有道词典、有道云笔记、有道精品课、有道词典笔等业务，业务范围覆盖K12教育、成人教育、素质教育、智能硬件等领域，让教育大模型落地有了众多的场景。

随着ChatGPT在国内的普及，有道的技术团队见证了用户行为的快速改变。周枫回忆，与有道翻译会员关联的AIBOX才上线几个星期，桌面端会员的四分之一的收入就来自于该功能。

这是一个用户在翻译等众多场景可以用到的功能，比如回一封正式的英文邮件或给海外大学写一封申请信，大部分中国人可能担心语言不地道，词不达意，AIBOX则可提供润色的功能——用户选中一段英文，可以根据自己的需求让它更专业，原本需要找英语母语者或文书专家修改的稀缺能力，变得唾手可得。

文本翻译之外，Hi Echo聚焦的英语口语陪练也是其重视的场景之一。他认为，口语陪练一直以来都有几百亿的市场规模，这里面创新空间非常大。中国人学外语最大的困难不是词汇，也不是语法，而是没有语言环境，可语言环境非常难创建。

“以前创造语言环境的唯一办法就是请外教，花很高的价格请外教每个星期聊几个小时，但外教最大的问题在于资源太少且太昂贵了。只有非常少数的学生家庭能够支付得起这样好的语言环境，但技术革新不就是解决这样的问题吗？”周枫告诉《中国企业家》。

在周枫看来，随着大模型能力的提升，让“因材施教”获得三大优势：

首先，大模型能为学生提供个性化的分析和指导；

其次，大模型能够实现引导式学习，与教师一样，提出问题并引导学生自行探索答案；

最后，大模型具备全科知识整合能力，通过连接多模态知识库、跨学科整合知识内容，大模型能随时满足学生的动态需求，帮助孩子培养更综合的能力。

“怎么这个东西又火了一遍”

2023年春节后，当大众也开始对ChatGPT津津乐道的时候，有道技术团队的感觉是，“怎么这个东西又火一遍？”

因为过去的积累和技术的敏锐度，有道技术团队在GPT-3.5出来的时候，也就是2022年12月到2023年1月间拼命关注、研究和测试，跟行业投资人和创业团队交流，考虑如何跟自己的业务做结合。

Transformer技术是现在AI的主流技术，GPT中的T也是Transformer的缩写，而Transformer正是从机器翻译开始做的，第一篇Transformer的论文也是与机器翻译相关的。

来源：受访者

2017年，周枫接触到Transformer，而早在2008年，有道成为国内第一家提供统计机器翻译模型的公司；2017年，有道从机器翻译引擎升级成神经网络翻译引擎，随后又升级到现在主流的Transformer技术。根据QuestMobile最新数据，到目前有道词典月活用户已经超过1亿，排名国内词典翻译市场第一，也意味着这是Transformer方案下市场份额最大的翻译产品。

技术积累的优势首先体现在团队的快速成型上，“有道做大模型的过程，其实完全是在之前团队框架下来做的，没有额外组建团队来做，因为很多技术和资源都是一脉相承的。”网易有道首席科学家段亦涛告诉《中国企业家》。

从2016年开始，有道协同构建AI基础能力，同步组建语言、视觉、声音等团队，目前积累了有道神经网络翻译（NMT）、计算机视觉、智能语音AI技术、高性能计算(HPC）四大底层技术能力。

2017年开始，有道升级到主流技术Transformer后，将AI能力统一在大模型之下，并重视其在端侧的落地应用。2019年，有道词典笔2代首次搭载离线Transformer NMT，将Transformer装到词典笔这样的小设备里面。

因此，技术积累的优势还体现在，过往的技术工程经验，让团队在处理大模型带来的算力、成本等难题时，能稍显从容一些。周枫回忆，当时神经网络的翻译上线时，团队碰到技术升级和成本问题完全一样，当时花了三个多月时间才把这些问题解决掉。

过去6年多时间，有道技术团队除了将Transformer用在翻译产品外，也将其用在语音、视觉、OCR字符文字识别上，因此有道的算法团队对于这次大模型的技术变化并不陌生，甚至曾试用过GPT-2的技术，到ChatGPT3.5之后，大模型带来很多不一样的东西，如参数规模、技术做法上的差异，但段亦涛认为总体技术路线是一脉相承的。

“很多时候成本挑战是一个相对的过程，你如果能做到行业内对资金利用率、对人员利用率比较高的话，其实就完全没问题的。有道总体上不需要增加什么额外的特别大的投入，因为有道AI团队也不小。”周枫告诉《中国企业家》。