过去几个月,行业用户对大模型的关注经历了从天马行空的想象,到组建团队寻找场景。大模型企业也从百模大战,到竞相落地布局。
文|周路平 徐鑫
编|石兆
国内大模型战场的比拼正在进入新的阶段。
过去2个月,大模型市场上异常热闹,不同参数级别和能力类型的大模型纷纷内测。如何降低大模型使用门槛,让大模型真正在行业里用起来,是企业用户和大模型提供商关注的焦点。
5月9日,国内最早开始大模型产品内测的百度,公布了企业级大模型平台“文心千帆”内测的消息。在推动大模型落地行业上,百度迈出了关键一步。
01
大模型竞争进入新阶段
最近两个月,百度集团副总裁侯震宇感受到了大模型赛道的有趣变化。之前过来接触的人,级别都非常高,大多是CEO,交流的内容也以科普为主。大家都觉得大模型很重要,害怕掉队。但现在,来的大部分是企业内部具体做事的人,他们希望尽快将大模型在业务中落地,以获取竞争优势。
“这是个好事,说明大模型已经逐步迈向实际落地阶段。”侯震宇说,外界对大模型的关注经历了从天马行空的想象到探讨如何落地的阶段。
从国外厂商的动作来看,这一趋势的转变已经越来越明显。
海外最受关注的是微软的路径。由于与OpenAI在资金、技术和应用落地场景有深度合作,微软步子迈得大。在C端产品如搜索引擎Bing上,大模型让应用从工具向智能助手转变,目前Bing的活跃用户增加到了1亿水平。在微软能力强项ToB领域,“智能副驾”Copilot已经与微软已有的低代码开发工具、Office办公软件、CRM、ERP软件以及网络安全等多款产品结合,完成产品的智能化升级。
其中代码生成平台Github和office产品的智能智能助手推出在行业里引起了不小的轰动。
国内企业服务市场几位行业人士不同程度向数智前线表达过焦虑情绪。随着大模型能力引入相关赛道,企服产品服务客户的方式和竞争点可能也会发生变化,他们需要密切关注。
国内最早推出大模型产品内测的百度此前也一直与大量企业探索应用场景。百度公布的数据,有超过300家生态伙伴参与内测,在400多个企业内部场景取得测试成效。大模型内测后,百度开了3场面向企业客户的大模型技术交流会,每场都人员爆满。这也反映了当下企业们迫切想了解大模型在细分场景里的方案。但也有用户反映,希望看到更有确定性的机会。
最新的消息是,文心大模型技术交流日上,百度披露了正在联合企业客户、生态合作伙伴内测的“文心千帆大模型平台”,以未来满足企业客户研发和使用大模型的需求。
文心千帆大模型平台不但提供包括文心一言在内的大模型服务,还提供大模型开发和应用的整套可视化工具链,包括数据生成、标注、回流的数据闭环管理功能。客户以少量数据即可发起模型微调,最快几分钟就可获得自己的专属大模型。
目前,百度自身已有的相关产品已率先开始基于文心千帆大模型平台进行智能化升级。同时,基于大量用户交流与反馈,百度将大模型应用的场景提炼成了通用应用和行业应用两类。
通用类包含了智能创作平台、数字人技术和生成、知识管理和检索、对话系统以及智能客服等适用于所有行业的场景。在此之上,金融、政务、工业、媒体、电商零售等多个行业,是百度智能云所覆盖的重要战略场景。
为了能更好的在行业落地,百度也在积极打造合作伙伴生态。5月9日的交流会上,百度与联想集团、用友、宝兰德等14家文心千帆生态伙伴签约,继续推进大模型的行业场景落地。
业界观察,这些生态伙伴在企业服务的细分市场,有大量数据积累和行业实践沉淀,对百度在细分行业场景里形成能力补充。
例如,老牌企业服务提供商用友,在企业数智化转型领域积累了数百万企业客户的人财物项、产供销研等10大领域和众多行业的应用实践;宝兰德是国内电信行业国产中间件市场的头部厂商,在中间件、智能运维等行业通用软件及数智化产品解决方案有丰富经验。
业内认为,丰富的实践和碰撞,能帮助大模型实现产品、技术和应用场景间的良性互动。
“真正能够把大模型在垂直行业做好,是目前各个企业都要考虑的问题。”智能运维企业宝兰德董事长说,让大模型的能力落地是接下来大模型发展的一个非常关键的步骤。
02
大模型ToB的两条腿
作为企业级大模型生产平台,百度给文心千帆的定位是大模型生产和分发的集散地。文心千帆平台上,不但提供包括文心一言在内的大模型服务及第三方大模型服务,还提供大模型开发和应用的整套工具链。
企业既可以直接用百度预训练的文心大模型,还可以基于平台训练自己专属的大模型,百度文心千帆大模型平台提供的两种不同商业模式,也契合了当前企业对大模型的不同需求。
百度内部形象地将两者比作为“操作系统模式”和“台积电模式”。所谓操作系统,是指文心一言大模型扮演了AI时代操作系统的角色,企业只需要在文心一言大模型的基础上,注入少量行业知识数据进行微调,用很小成本就能得到自己的专属大模型,就像开发者在安卓开发App一样。
台积电模式指的是百度提供高效稳定的全套基础设施和丰富的工具链,让客户到文心千帆大模型平台来训练他们自己的大模型,训练出来之后再交付给客户,就好比芯片设计企业,拿着设计好的图纸,交给台积电流片制造。
但这两种模式,都非常考验平台能否提供一套简单易用的工具链。
“中国企业关注大模型的落地能力。”用友副总裁、研究院院长吕建伟说,外界虽然演示了很多大模型的应用场景,但背后的加工过程非常复杂,比如需要做提示词,需要做模板,有很多的工作需要去做,“如何能把这些很复杂的,像微调、提示调优、指令调优、强化学习的功能,从工具层面再降低一个层级(非常重要)”。
以大模型训练和应用最常见的微调为例,它能低成本地对模型进行修正,用于改进预训练模型的性能,以适应新的任务。
吕建伟直言,当下训练大模型经常遇到两个极端:要么是不能进行很好地微调和性能调优,大模型跑起来就没法停下来;要么需要花费上千万元,去重新训练。
技术交流日当天,百度智能云AI与大数据平台总经理昕舟在百度智能云BI产品sugar上,现场演示了文心大模型的微调全过程。sugar主要提供数据可视化,帮助客户做商业分析和决策,已接入了文心一言的能力。
“展示一下各个地区的销售额”,第一个指令通过输入框下达,全程不需要任何专业的技能,很快系统就反馈出一个饼状图,有对应的百分比和销售额。
“统计华北地区2019年3月到5月的销售额,用折线图来表示。”需求开始变得复杂,而系统也没有返回结果。
这也是很多通用大模型会遇到的问题:如何通过小样本数据的投喂,让大模型变得更加聪明和强大。很快,昕舟将准备好的100条高质量精标数据,投喂给大模型。在小样本的微调下,系统很快掌握了技能,准确返回了结果。
微调教会了大模型在特定的应用中学会特定的指令和要求,并且还能具备一定的泛化能力。这也是业内训练大模型的常见做法。
除了微调,目前,文心千帆大模型平台包含了大模型生产和应用的完整生命周期要具备的功能和工具,从底层的AI异构算力、高性能文件系统、高速网络和AI调度增强,到海量的数据处理、高质量的数据标注、强化学习,再到大模型的评估、高效的压缩、自动化的Prompt工程和快速的应用编排。千帆大模型平台考虑到了大模型从开发、应用到调优的每一个环节。
另外,文心千帆大平台也支持插件。ChatGPT在推出Plugins(插件)功能时,外界一片惊呼,它能将ChatGPT连接到第三方应用程序。
除了训练和应用大模型,不同的业务需求对大模型的部署方式也提出了要求。当下,外界普遍认为公有云是一个非常高效的应用方式,但不少企业尤其是政企客户,出于数据安全和合规考虑,都会要求私有化部署。
“中国ToB市场,很多大企业要求私有化部署,但大模型的私有化部署其实很复杂,有很多局限性。”吕建伟说,如果要把大模型分发给中国上万家的大型企业,如何很容易地分发部署,部署的工具在哪里都是业内所关注的问题。
目前,包括百度、华为和阿里在内的厂商都在提供公有云服务和私有化部署两种交付模式。
以百度文心千帆为例,它的部署方式则更加灵活,对外将提供了“3+3”的交付方式。公有云服务上提供推理(直接调用大模型的推理能力)、微调(通过高质量精标业务数据,高效训练出特定行业的大模型)、托管(将模型发布在百度智能云,以实现更加稳定高效的运行)三种服务。
私有化部署上,文心千帆大模型平台也提供了三种部署方式:包括支持软件授权(提供在企业环境中运行的大模型服务)、软硬一体(提供整套大模型服务及对应的硬件基础设施)、租赁服务(提供机器和平台的租赁满足客户低频需求)。
据数智前线获悉,租赁服务是百度智能云最新增加的部署方式,目的是满足部分客户对模型训练的低频需求,相比于去采购大量的资源和机器,租赁会更划算。
公有云和私有化结合的灵活多样的部署方式,将加快大模型在企业业务中的应用。
03
成本压力下,全栈底座的优势
随着业界普遍将通用人工智能视为历史性的机遇。不少企业纷纷开始训练自己的大模型,被业内称为“百模大战”。但并不是每一家企业都要从零到一去训练大模型,一般企业既没有这个能力,也没这个必要,“我想开车,不需要自己去造车”。
“我们不应该自己去做大模型,我们把自己定位在大模型的最佳应用方。”金山办公助理总裁田然直言,文心一言发布后的第一时间,金山办公就联系了百度,开启了内测。
这是一个非常现实的考量。金山办公CEO章庆元此前在接受采访时也提到,“我的核心竞争力还在Office本身。所以我一定要跟进最好的大模型,谁好我就用谁。我就做大模型的应用者。”
其实,无论是自己去训练大模型,还是接入大厂提供的大模型服务,成本都是其中非常重要的考量。
华为此前透露,大模型开发和训练一次的成本高达1200万美元,背后是大量资源和算力的消耗。而即便是调用类似ChatGPT的方式,GPT-3.5模型的API价格为0.002美元/千token,GPT-4在请求方面的API价格为0.06美元/千token。对于很多企业而言,这也是一笔难以承受的成本。
田然提到,金山办公有数亿用户,如果这些用户都用上大模型的能力,将会带来巨大的成本压力。所以,成本也是金山办公在使用大模型时非常关注的地方。“百度大模型的推理性能和推理的成本是有一些优势的。”田然说。
侯震宇表示:”最终能够让大模型服务推广开的只有两个原因:第一个是模型效果,第二个是成本。”
事实上,百度大模型的调用和训练成本一直在下降。文心一言开启内测后,一个月就迭代了四次。根据百度之前披露的数据,文心一言的推理成本如今只有发布之初的十分之一,而3个月内的推理效率提升10倍,模型推理性能提升50%,模型算力利用率提升1倍。
侯震宇透露,除了推理成本下降,在接下来几个月,不管是在模型使用,还是在模型微调甚至在模型再训练方面,“价格应该不会成为大家使用或者拥抱大模型的瓶颈”。
这得益于百度打造的国内首个全栈自研的AI基础设施“百度AI大底座”,它面向企业AI开发提供端到端的解决方案,从芯片、框架、模型和应用进行了全栈布局。
正如侯震宇所言,大模型时代下,企业不但需要智能的算力、灵活的框架平台、丰富的大模型体系以及优质的应用方案,还需要这四层技术架构之间的适配与优化,这是一个“既要、又要、还要”的端到端创新工程。
这是百度AI大底座在大模型训练上的优势所在:芯片层的昆仑芯、框架层的飞桨和模型层的文心大模型家族。每一层均有行业领先的产品,可以形成一个高效的反馈闭环,帮助大模型不断去调优迭代。尤其在框架层和模型层之间,AI大底座有很强的协同作用,可以帮助企业构建更高效的模型,持续调优性能,并显著降低成本。
“大家可能会觉得堆积算力、写好代码、然后进行模型训练,把它跑起来就行了。实际上在训练过程中会遇到各种各样的挑战,很少有人能够使得一个大模型训练过程能够在连续一两天内不出问题。”百度智能云云计算产品解决方案和运营部总经理宋飞说,“百度AI大底座可以为大模型提供高效、稳定的训练和有效的收敛。”
根据百度披露的数据,百度AI大底座的千卡加速比达到90%,资源利用率达到70%,开发效率提升100%。如果不是全栈布局,很难获得这样的效果。
除了效率和成本,安全合规也是企业选择大模型的一大前提。田然提到,金山办公与百度大模型团队对接后,讨论的第一个问题就是安全合规。
而国内企业对国产化自主可控也有很高的要求。“虽然中国有很多个机器学习的框架,他们也都是支持国产化的系统,软硬件,也都是开源,但飞桨的开源知识社区,是我们评估来做得最好的一个。”吕建伟坦言。
大模型被认为是AI发展的分水岭,已经在等政务、工业、金融、传媒等领域的办公协同、智能客服、文案生成、工业质检等场景下展现出了威力,无论是对现有产品的改造,还是创新场景的探索,大模型都在打开全新的想象空间。需求已经涌现,只不过,市场的需求注定是碎片化的,企业的大规模应用还有待时日。
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论