最近有两件事,让搜索引擎重回聚光灯下。 百度发布“文心百中”,用AI大模型技术驱动的产业级搜索系统。构建企业内部搜索引擎的人力成本减少90%以上,同时只需要极低数据。 几乎同一时间,OpenAI最新发布聊天机器人ChatGPT,网友发现用它来寻找问题的答案虽然有时会出错,但直接得到完整回答的感觉要比从搜索中再去挑选爽快多了。 搜索引擎这个经典技术,就要迎来一轮变革了吗? 想当年,搜索引擎是PC互联网时代的流量入口,绝对的王者。 进入移动互联网时代后,虽然不再是最受关注的焦点,但搜索也仍旧是高频刚需,逐渐融入人们的日常生活。 当人们重新把目光看向搜索引擎,也会注意到它这些年并没有停止进化。 搜索变了过去一提到搜索,肯定离不开关键词。前几届世界杯时,人们更习惯于搜“世界杯 直播地址”,关键词之间用空格隔开。 就好像把所有网页当成一个大文档,用类似Ctrl+F的方式去对关键词做匹配。 随着手机、移动互联网的普及,人们的需求也在变化,现在更倾向于提出一个问题,并期待搜索引擎能直接给出回答。 如搜索“世界杯直播在哪看?”,更口语化也更复杂,甚至一些时候就是语音转换出来的。 ![]() 搜索引擎也在适应这种变化,给出的结果不再是单纯的页面排序。 针对一些问题,会给出对内容深入理解后的答案抽取。 ![]() 有时会给出更直观、更容易跟着操作的视频内容。 ![]() 甚至在理解需求的基础上出现配套的服务跳转。 ![]() 这些变化看起来并不复杂,背后却要有很多技术做支撑。 在这里要重点讲一下百度今年亮相的两项新技术,“知一”和“千流”。 先看跨模态大模型知一,AI技术在搜索场景落地的代表。 简单来说,知一大模型可以从全网形态各异的资源中持续学习,无论是文本、图片、视频还是结构化信息都可以融会贯通。 打破了资源形态的界限,就更容易理解用户的搜索需求。 从技术层面讲,知一使用了百度文心大模型技术。大规模预训练技术提升模型性能,蒸馏压缩率高达99%的模型小型化技术以降低成本,得以在搜索场景全面应用。 据了解,目前知一在百度搜索的各场景中每天要进行上万亿次的推理。如此巨大的使用规模又带来新的问题,如何把满足需求的结果高效呈现给用户。 这就要提到新一代索引技术千流,负责把不同维度的信息进行智能有序的组织。 千流与之前的索引技术相比,主打多领域、多维度表达的立体栅格化索引。 如何理解栅格化? 在过去,搜索引擎为提高效率会把内容按质量横向分层。先从高质量内容开始检索,满足需求就可以及时返回结果,还未满足再进入下一层。 如今,在千流中又把质量最高的一批内容按领域垂直分层。质量分层+内容命中结合,一横一纵把内容切分成栅格按需检索,大大减少每次检索的计算量。 ![]() 百度工程师透露,这样节省下的计算量也没有闲着,而是对内容进行精耕细作,用不同的算法从多维度提高索引的质量。 还有一个额外好处,在不同栅格之间可以应用个性化算法。就好比“一鱼多吃”,不同的部分使用不同的烹饪方法。 知一和千流配合起来,整个系统还会根据模型最新学习到的知识,进行实时动态调整,确保最优检索效果。最大程度避免无效计算,最终把满足需求的结果高效呈现给用户。 这些新技术,在实际业务中是否起到了效果呢? 答案或许可以从数据中找。 反馈驱动创新9月份举办的万象·百度移动生态大会,百度指出,过去一年,百度搜索规模逆势增长17%。 最新的百度第三季度财报也显示,移动端搜索查询次数同比实现两位数的增长。 百度集团资深副总裁、百度移动生态事业群组(MEG)总经理何俊杰指出,其中的关键是“反馈驱动创新”。 一方面反馈来自智能搜索。百度搜索每天响应来自100多个国家、几十亿次的搜索请求。 |
|