【原】让全栈AI的旗帜猎猎作响：“逆行者”华为云

脑极体 2024-06-21 发布于河南

展开全文

如果有人问，AI大模型行业，最近的风向是什么？相信很多人都会说，是“内卷”。

近段时间，“降价”成了大模型的第一关键词。各大云服务商争相加入AI降价潮，甚至有公司模型降价达到了97%的惊人幅度。加上厂商抢卡、模型开发者套壳，种种痕迹似乎印证着AI大模型迎来了极度“内卷”的新风向。

但是，这种“内卷”的尽头一定是不健康的。原因很简单，我们只需要问目前的产业形态几个问题：大模型的核心技术成长了吗？大模型落地应用更容易了吗？产业中那些棘手的问题解决了吗？如果答案都是否定的，那么以降价和内耗为代名词的内卷之路，前途注定是灰暗的。

然而任何风潮中也总有逆行者。与同质化内卷相对应的，是AI大模型领域也潜藏着反内卷的力量。去解决问题，去做实事的反内卷AI之路，虽然更难，但却更有必要。在HDC 2024，我们就看到了一朵逆行的云，一条逆行的AI之路。

（华为常务董事、华为云CEO张平安）

6月21日，华为开发者大会 2024（HDC 2024）在东莞篮球中心揭幕。期间，华为常务董事、华为云CEO张平安发布了盘古大模型5.0，在全系列、多模态、强思维三个方面全新升级。同时，张平安还分享了盘古大模型在自动驾驶、工业设计、建筑设计、具身智能、媒体内容生产和应用、高铁、钢铁、气象等领域的丰富创新应用和落地实践，持续深入行业解难题。此外，华为诺亚方舟实验室主任姚骏、华为云CTO张宇昕分别就盘古大模型5.0训练过程解密和华为云全栈系统性创新发表主题演讲，详细解读华为云在AI领域的全栈创新。

从发布盘古5.0，到展示包括AI原生基础设施、AI开发平台在内的AI全栈创新，我们能够看到华为云选择了做AI大模型领域最难的事，把AI能力从纸面引到真实的生产场景中来。这种行动方案，可以总结为用技术能力的外溢，反对零和博弈的内卷。

以前有句歌词，叫做“走的是人间的道，扛的是顶风的旗”。

想要AI走人间的道，需要云厂商扛起顶风的旗。

AI大潮前

顺风内卷，还是逆风扛旗？

目前阶段，AI大模型技术已经成为各国竞争的科技战略高点，同时也成为科技企业通向下一个时代的船票。全球范围内，可谓无地不AI，无行业不AI。

但在热潮之下，一系列由过快增长带来的“内卷”现象却表现得淋漓尽致。

首先，各大云服务商掀起了大模型价格战，以非常不健康的降价模式期望短期内聚拢用户，实现行业竞争的目标。在这背后，是大模型难以真正走入企业应用，不能解决实际的产业问题，进而导致商业空间受限，云厂商不得已转向以低价换规模的策略。

其次，在大模型降价的态势下，厂商能够投入的技术研发能力越来越少，变成了恶性循环，导致出现了大量以开源模型相互套壳等不良竞争现象。这些极端现象所折射的，是模型同质化过高，核心技术缺乏发展路径，进而出现了不卷能力，不卷应用，只卷面数据和价格现象。

此外，整个中国AI产业面对着AI算力供应短缺，AI算力基础设施进口限制不断加码的问题。整个产业出现了长期的AI算力荒，亟需可持续供应的自主AI算力。

上游基础设施不稳定，中间层核心技术不发展，下游产业场景进不去。在这种情况下，AI大模型领域的“顺风局”开始变味。似乎大模型不是为了用，而仅仅是为了行业竞争而存在。

这个时候，我们也都知道产业需要一些逆行者站出来，来实际解决全行业面对的共性问题，来引导大模型核心技术与产业需求对齐，通过技术能力外溢的方式来拓展大模型的产业边界。

想要实现这个“逆行”，就必须把一面旗帜打出来。

这面旗帜，就是AI核心技术的自主创新，是从算力到工具，再到模型和行业场景的全栈AI能力建设。

华为云，选择逆行于AI行业的“内卷”之风，选择让全栈AI的旗帜猎猎作响。

智能要致用

推动盘古5.0升级

大模型内卷严重，最核心的问题在于模型能力的高度同质化，而大模型之间的雷同感，问题根源在于缺少升级的方向。大家只能参考海外比较流行的大模型能力，最终导致能力差异化被稀释。

而华为云在打造盘古大模型过程中的不同之处在于，是他们找到了源源不断的AI能力升级目标，那就是“用”，是千行万业的真实的智能化需求。不能让大模型停留于测试和理念，要让它走出去，走向行业场景，走向企业需求，然后才能厘清AI的价值是什么，问题是什么，进而找到行之有效的升级之路。

在盘古大模型从3.0到5.0版本的升级过程中，进一步印证了以深入行业场景为目标的大模型升级思路。整体而言，盘古5.0在三方面实现升级：

1.多模态能力提升。

盘古大模型5.0能够更好更精准地理解物理世界，包括文本、图片、视频、雷达、红外、遥感等更多模态。在图片和视频识别方面，可支持10K超高分辨率；在内容生成方面，采用业界首创的STCG（Spatio Temporal Controllable Generation，可控时空生成）技术，聚焦自动驾驶、工业制造、建筑等多个行业场景，可生成更加符合物理规律的多模态内容。

比如盘古5.0可以通过输入华为公司的年度报表，准确回答华为云的收入和增长情况。通过卫星图片找到细微的地表变化，通过巨大的病理照片找到我们想要的病菌的数量级。同时，盘古5.0还可以基于多种模态的输入信息来思考，并且支持将输入的2D图片在3D空间中进行推理。

升级多模态能力的核心驱动力，在于真实的行业场景就是多模态的。只有让大模型看懂物理世界，看懂图标和数据，在巨大信息中寻求细节，大模型才能真正成为生产中的作业工具，成为能够沉浸到行业需求中的智能化引擎。

2.全系列模型打造。

在HDC 2024期间，华为终端、鸿蒙操作系统与盘古大模型5.0的结合备受瞩目。背后的技术升级在于，盘古5.0推出了不同参数规格的模型，可以适配不同的业务场景。十亿级参数的Pangu E系列可支撑手机、PC等端侧的智能应用；百亿级参数的Pangu P系列，适用于低时延、高效率的推理场景；千亿级参数的Pangu U系列适用于处理复杂任务；万亿级参数的Pangu S系列超级大模型能够帮助企业处理更为复杂的跨领域多任务。

在真实的应用场景中，企业需要在不同类型、不同环境中部署大模型，并且需要进行比较复杂的跨领域协同。盘古5.0的全系列模型打造，也让其能力进一步深入行业场景，成为更加可用的大模型体系。

3.着重强化思维能力。

盘古5.0还在逻辑推理方面进行了极大升级，将思维链技术与策略搜索深度结合，极大提升了数学能力、复杂任务规划能力，以及工具调用能力。思维链帮助智能体（如机器人）更好地理解和预测环境变化，而“策略搜索”是智能体用来适应这些变化并做出决策的过程。两者共同作用，使得智能体能够在复杂环境中进行有效地学习和决策。对于真实的生产场景来说，任务往往是复杂多样，且需要随时调整的。大模型必须具有足够复杂的思维推理能力，才能够真正走向企业的核心生产环节。

总结一下，我们可以发现盘古5.0做了这样三件事：

适配行业需求，提升AI理解物理世界的核心能力。

适配应用场景，打造多样化的模型参数规格。

适配企业业务，实现思维推理能力的升级进化。

这些能力都以在真正的行业与企业中“能用”“好用”“有用”为目标，进而来驱动智能化的前进。

张平安强调，一直以来，华为云盘古大模型都坚定的聚焦行业，在解难题、做难事的道路上不断攻坚克难，砥砺前行，重塑千行万业。华为云将与所有的客户、伙伴和开发者一起，创新不止，攀登不止，让云无处不在，让智能无所不及，加速千行万业的智能升级。

久久方为功

扛起全栈创新的旗帜

在模型适配行业场景的同时，企业面对的另一个问题在于基础设施的薄弱。算力匮乏、工具缺失、基础设施能力不匹配，每一项缺口都可能造成大模型落地过程中的木桶效应。反而言之，如果云计算厂商不能够解决这些核心问题，一味“内卷”大模型的价格与纸面上的创新，也只会让大模型距离真正的商业闭环越来越远，进而造成技术与应用的脱节。

唯有AI全栈创新，才是大模型发展的正道，也是反内卷的旗帜。

今天的华为云，更加坚定地举起了这面旗帜，带来了包括昇腾AI云服务、AI原生基础设施、AI开发平台在内的AI全栈创新。

在算力层面，华为云对昇腾AI云服务进行持续优化，打造了贵州、内蒙古和安徽三大核心枢纽，构建了算力一张网，以此满足全国的算力需求。

同时，昇腾AI云服务可以做到40天万亿参数模型训练无中断，远超业界普遍水平的2.8天，集群故障恢复速度只需10分钟，远低于业界的60分钟。目前，昇腾AI云服务已经服务超过600家企业客户，全面适配100个行业主流大模型，以云服务的方式破解了AI算力匮乏与缺乏自主化的难题。

而在AI全栈创新层面，华为云希望通过云系统创新，打造AI Native的云。

华为云CTO张宇昕表示，通过全栈系统性创新，能够让大模型的数据准备、训练、推理、应用实现全流程的高效率和高性能。华为云的全栈系统性创新覆盖了数据中心、云平台架构和基础设施服务，为 AI 开发提供 AI Native 的基础设施。

一方面，华为云践行“Cloud for AI”，通过全栈系统性创新，实现大模型的数据准备、训练、推理、应用的全流程高效率和高性能。华为云的创新覆盖了数据中心、云平台架构和基础设施服务，为AI开发提供AI Native的基础设施。

另一方面，华为云还希望做到“AI for Cloud”，华为云将盘古大模型和华为在产品研发、数据治理、安全防护、业务运维等各个领域积累的数据和经验相结合，将华为云的服务重塑、升级，让华为云更智能、更高效。

围绕AI Native的云这一目标，在基础设施方面，华为云打造了下一代云基础设施CloudMatrix，其能够改变传统数据中心的架构和算力供给模式，将传统的以CPU为中心的主从架构，演进为多元算力对等全互联架构，并通过高速互联网络协议，将CPU、NPU、GPU等算力资源全部互联和池化，从而把AI算力从单体算力演进到矩阵算力。在存储方面，华为云首创的EMS弹性内存存储服务，通过在NPU卡和持久化存储两层间增加弹性内存存储层，基于Memory Pooling专利技术，通过显存扩展、算力卸载、以存代算等三大手段来打破内存墙，释放极致算力。

从算力到存储，从开发工具到大模型本身，华为云已经构筑起了全栈创新，没有短板的AI基础设施能力。

面向真行业，解决真问题，实现真落地。这或许是华为云的“逆行”，却是千行万业的渴望。

人间是盛景

让AI走上行业的道

如今，华为云的AI能力服务范畴正在不断拓展，从AI大模型风潮中收益的行业和企业，正在与日俱增。

在HDC 2024，我们又可以看到一些全新的行业完成了基于华为云AI全栈创新的智能化飞跃。

比如说，在钢铁领域大名鼎鼎的宝武钢铁，就通过携手华为云打造钢铁大模型，实现了智能化水平的极大提升。

钢铁生产流程主要包括高炉、转炉、连铸、轧制工艺流程，目前华为云的AI方案在高炉炼铁和热轧钢带两个环节中已经得到了有效利用。宝武集团跟华为云合作，用AI大模型实现高炉指标预测，高炉炉况评估，进而实现对高炉工况进行优化，降低高炉能耗，提升高炉产能。双方团队合作之下，就大模型在高炉炼铁的应用梳理出了7大场景，包括焦煤配煤优化、高炉炉温预测、燃料配比优化等。最终实践表明，盘古大模型在高炉炉况优化场景预计每年可以为宝钢降本超过10亿元。

高铁已经是我们每个人生活的一部分。截至2023年底，中国高铁里程达到4.5万公里，居世界第一。在高铁运营工作中，动车巡检需要人工实施，涉及众多检查项，工作量巨大。

一列16编组动车有超过3.2万个故障检测项点，覆盖了8大类型、350多种故障，诸如变形、异物、松动、丢失、断裂、擦伤、漏油、超限等故障，传统的故障识别方法需要大量人工工作。

北铁所与华为云携手，将华为云盘古铁路大模型应用于高铁巡检机器人，实现了动车检测的智能化落地，为动车检测带来了更多价值，不仅将巡检工人从繁重的劳动中解放出来，还大幅提升了检测效率和检测准确率。

北铁所联合华为云采用国内首创的二维图片+三维点云+激光光谱等多模态融合诊断技术，能精准识别超限、异物等各种复杂故障。多模态融合诊断比起单模态，故障识别准确率可提升到98%以上，为铁路行业带来了一种全新的发展思路。

在工业、矿山、媒体、生物制药等领域，都可以见到华为云的AI能力深入其中，为行业带来直观且清晰的价值。