笑容 2023-03-23 19:05:53 本篇文章转自杨长雍大佬的分析。 理解chatgpt人工智能大浪潮带来的真正产业机会,首先要深刻理解李彦宏前段那段话: 李彦宏表示大模型时代将产生三大产业机会:通用大模型、行业大模型、应用。一是MAAS通用大模型。OPENAI公司做出的Chatgpt、百度公司做出的文心一言都属于这种。通用大模型在Chatgpt出现之前,很多研究者都认为这个方向走不通,OPENAI解决了从0到1的问题,现在越来越多的大公司都加入进来开始攻关了,通用大模型的研发已经成为各国新一轮技术竞争的核心领域。 通用大模型需要庞大的算力、数据、算法训练做支撑,是烧钱的活,只有超级大公司能做。OPENAI背后微软投资了上百亿美金,在中国也只有百度、腾讯、阿里、360这些既有数据又有钱又有人的公司才能做。 通用大模型类似于互联网时代的操作系统,比如WINDOWS、安卓、IOS操作系统,是人工智能的底座,实际上是不会同时存在太多的。因为本身壁垒极高,先发者又保有优势,相互竞争会非常激烈,最终只会剩下几家大的,就看谁做的最好。目前中国最早推出的通用大模型是百度的文心一言,阿里、百度等大公司也不得不跟进人工智能这次科技革命,相信未来中国也会有几家通用大模型。 通用大模型的运行和服务都在云上,通用大模型公司就是服务本身,文心一言通过百度智能云对外提供服务,chatGPT通过微软云对外提供服务,这对云计算的要求很高,模型、框架、芯片、应用必须高度融合。 这个方向存在很多的投资机会,比如AI芯片、算力、云计算、光通信、大模型本身,但不是今天讨论的重点。 二是行业大模型,即细分垂直行业大模型。这是通用大模型和企业之间的中间层。他们可以基于对行业的洞察,调用通用大模型能力,为行业客户提供解决方案。拓尔思就是媒体资讯、网络舆情、产业大脑等多个细分领域的行业大模型,这个是今天讨论的重点,后面再说。 三是应用开发。基于现有的文字、图片、语音视频生成的能力可以开发出今天还无法想象的应用。在 AI时代、在大模型时代,也会出现这种现象级的应用,只不过它是基于大模型来开发的。很久前分析的万兴科技就是这一类应用的代表。 高质量行业大模型不可或缺,意义十分重大,是人工智能商业化落地的基础。 通用大模型作为操作系统,虽然有良好的泛化能力,能嫁接到所有的行业和公司上面,但是也有2个非常明显的缺点:一是知识覆盖面广但是深度不够。二是在匹配下游企业具体需求上不精准。 造成这2个缺点的原因大家可能都清楚。一是行业数据壁垒。比如在金融、政府、媒体、医疗等特定领域的知识并不公开,开放度很低,有些还涉及保密,通用大模型没有办法获取这些数据并进行训练,就不具备对专业业务场景的理解能力。二是不同行业不同企业的需求各不相同,通用大模型只能提供通用的场景应用,没有办法对接所有企业来进行深度适配,商业化就无法精准落地。 所以,李彦宏说,当通用大模型面向某一个行业进行精调,就会更好地解决某个行业的问题,吃的比较透,它就可以服务相应行业很多的企业或者组织。大模型商业化落地的基本条件是具备能精准适配下游场景任务,且保证结果高效、可控、合规的“高质量”行业大模型。 怎么样生成一个高质量的行业大模型呢?——那就是在通用大模型的基础上,利用行业数据进一步训练生产行业大模型,并对行业大模型调优实现。这其中,对通用大模型“再训练”、“调优”形成高质量行业大模型的两个基本动作,也决定了厂商必备的三大能力:丰富的行业数据积累、大模型调优能力、AI工程化。 首先,行业数据是基础。数据是数字经济时代最宝贵的资产,是粮食。行业数据搜索引擎上搜不到,买不到,必须靠长时间的积累。这是有极高的壁垒的,只有长期为细分领域提供数据服务的公司才能获得全面真实深度有效的数据,而这种数据能快速提升行业大模型学习能力,并不断拉开与后来者之间的差距,为厂商带来先发优势。 然后,必须具备大模型调优能力。大模型调优能力需要具备领先的深度学习/NLP技术积累/知识图谱/搜索引擎等多方面的人工智能能力,这一点只有极少数的公司才具备。 最后,AI工程化能力。AI工程化是指提供AI应用开发的系列方法、工具和实践集合,形成快速测试、构建和部署AI应用开发流水线,加速AI应用落地过程,实现模型自动重新训练和部署。行业大模型只解决了大模型“可用”的问题,若想AI成为企业的生产力,还需要解决大模型“落地”的工程化问题,否则落地效率、周期会远超预期。 AI工程化能力涉及两个方面:1)通过分布式训练提升计算效率,解决大模型大体量参数、复杂网络结构带来的内存、通讯以及计算瓶颈;2)实现模型开发过程的持续生产、持续交付和持续部署。一方面,需要将定制化解决方案经验沉淀形成标准化产品,实现产品与服务的规模化,加速商业化落地效率;另一方面,也需要完善AI开发生命周期的工具、固化开发流程,提高模型开发全流程的紧耦合度,提升大模型训练效率。 拓尔思正在打造高质量的行业大模型,提供行业大模型到智能应用的一体化服务,为什么相信他能够成功并实现价值呢? 首先,要确定拓尔思正在干这个事,并且即将推出系列产品。拓尔思机构调研时表示,将积极拥抱大模型发展,基于通用AIGC大模型,专注优势行业进行专业大模型的研发,融合学习行业特有的大数据和知识,提升大模型对行业应用的适配性。公司也将以预训练大模型、In-Context Learning、instruction tuning等技术为基础,将公司自主研发的文本生成、交互式生成、跨模态生成、小样本学习、大模型与外部知识库的融合等功能作为研发重点,突破基于大模型的AIGC关键技术,在问答式AI、智能创作、搜索引擎等领域实现成功应用。 对于底层的通用大模型,拓尔思表示将通过生态合作的方式获取,拓尔思本身是阿里云、腾讯云的深度合作伙伴,除了百度的大模型之外,未来阿里、腾讯大模型出来后也是很容易合作的。对于行业大模型和应用则会自主研发。 然后,拓尔思有这个能力和基础。一是有海量专业高壁垒的数据资产。拓尔思过去30年,主营业务就是大数据软件产品及服务、人工智能产品及服务,2022年前三季度营收占比达到了72%,净利润超过1个亿。公司于2010年自建大数据中心,至今已经积累了1300亿以上的数据总量,并以日均亿级数据的速度持续增加。 拓尔思的主要客户是ZF机构和8000多家企业,覆盖ZF、金融、能源、传媒等多个领域,均为行业头部机构,如GJ知识产权局、南方电网、中国银行、平安集团、科技日报等。 公司在数字ZF和公共服务领域的“产品+云服务+解决方案”已经覆盖80%的ZY和GWY机构、60%的省级政府和50%的地市政府。公司以内容智能为核心的融媒体行业服务已经覆盖72%的ZY媒体、61%的省级媒体和40%的行业媒体机构用户。 比如,媒体资讯领域的“数家资讯大数据服务平台”通过聚焦传媒领域的数据场景云服务,覆盖了数百家媒体机构用户,成为媒体大数据的国内市场占有率第一。 通过多年的积累,拓尔思形成了超过30个专业领域的数据库资产,如语义分析知识库、专利知识库、媒体知识库、金融知识库等,覆盖媒体服务、舆情服务、金融风控、产业投研、金融监管、智能消保、开源情报、政务应用等8大业务场景。 公司的重要产品,搜索性数据库“海贝”是一款从内核到系统完全国产自研的搜索型数据库,已经服务于安全大数据、媒体大数据、ZF大数据以及J队大数据等众多细分行业,拥有GJ市场监督管理总局、HG总署、ZL局、商标局等一系列客户。在GJ层面,几个重大的基础数据库,例如云搜系统、企业信用信息公示系统、专利检索系统等都构建在海贝之上。目前海贝已完成与龙芯、海光、飞腾、鲲鹏等国产芯片以及中标麒麟、统信UOS等国产操作系统的适配工作,完全满足信创要求和国产化替换需求。以信用中国项目为例,该项目由FGW、人民YH指导,GJ信息中心主办。原来在某云平台上由ElasticSearch对外提供检索服务,2018年迁移至公司“TRS海贝大数据管理系统”上,目前海贝在该项目中每秒需要支持大约1.2万的并发检索,日访问量接近10亿,获得了用户的高度认可。海贝搜索引擎就类似互联网上的百度、360搜索引擎,源源不断的将这些保密行业的数据积累起来。 这些数据资源基于拓尔思自研的数据底座经过采集、清洗、转换、分类、打标等流程完成基础数据治理后,与不同行业知识模型融合处理,被加工成数据资产进入到数据流通与交易环节。这些数据资产可用作大模型的训练语料,具备高质量、高价值的特点,有利于提升大模型的专业性与精准度。 这些数据都是极其珍贵、很难获取的,将形成非常高的壁垒,其他企业很难有这个基础。 二是有很强的大模型调优能力。拓尔思充分利用过往在NLP领域的工程技术积累,能基于行业场景任务对大模型进行校对和优化,使大模型高效适配行业场景,模型推理效果满足客户需求。 拓尔思长期聚焦知识图谱、自然语言处理(NLP)等语义智能核心技术,将通用预训练大模型与传统NLP技术相结合,利用行业Know-How,根据不同场景,通过对通用大模型进行调整和优化(Fine-tuning)来适配不同指标,获得不同行业客户侧重的准确率、召回率、综合F1值等指标,形成行业化的“专业大模型”,进一步优化结果可控性,更好地服务于用户的具体场景和需求。 拓尔思已经具备350余个专业领域深度学习算法模型,包括NLP通用模型和专业领域模型,如风控征信模型、公共安全模型、指数模型等,在AIGC商业落地上已经具备丰富的经验。 比如,海贝引擎就融入了拓尔思自研的NLP技术,如文本分词、自动分类、相似文本检索、拼音检索提示等,也集成了深度学习引擎,支持以文搜图、以图搜图、图文融合搜索,可以对图像中的文字进行OCR识别,也可以提取图像或者文本的特征数据,通过基因编码存储到海贝数据库里,成功实现图像相似性检索功能。 三是具备一站式A工程化能力。自成立以来的30年间,拓尔思丰富的行业大模型、机器模型的应用实践,已经覆盖政务、媒体、公共安全、知识产权等领域的多种场景,并积累了丰富的AI工程经验,不仅能搭建分布式训练架构,提高大模型训练速度,还具备涵盖数据标注、模型设计、模型训练、模型优化、模型评估、模型部署等一站式AI工程化落地工具和服务能力,有助于实现专业大模型贴合用户场景快速落地。 比如开发的智创就是一款专注文字生成类的内容自动生产平台,专注于辅助型、应用型、创作型等文本内容的自动生成,已在政务、媒体、金融、元宇宙等多个领域的多样化场景中实现落地。例如,在文本生成领域,为经济日报、浙江日报、重庆日报等近20家新闻媒体单位提供机器写稿服务,为冶金工业信息标准研究院、南方电网、教育出版社等提供研报自动生成服务。 那么未来,拓尔思不仅会利用通用大模型和行业大数据,逐步打造媒体资讯、舆情监控等优势行业的高质量模型,可以为客户提供底层能力和行业解决方案,自己打造或者帮助其他企业打造能满足行业需求的人工智能应用。只要打造成功一个就前途无量,何况这样的细分行业有很多个可以复制。 自2022年开始,拓尔思已经全面转向SaaS、DaaS、KaaS模式,实现云和智能数据服务,契合了人工智能大模型的发展趋势。这是一家站在人工智能风口,具备高壁垒数据资产和AI技术,极度稀缺,有成功经验,并正在努力进取的,行业大模型和应用公司,有可能创造很大的价值。极可能是最早通过AI 实现利润的公司。 公司最近的变化是愿意出来交流了,接受了很多机构的调研,这也是积极的一面。 |
|