再看2025大模型风云变幻,深根者立于终局


进入 2025 年,百模大战的参赛者数量收敛了一个数量级,基模牌桌上已经由 200 多家淘汰至十几家。尽管如此,基模竞赛仍然未到终局。
从模型能力看,多模态大模型仅达到 LLM 大语言模型两年前的水平,仍在加速进化中。LLM 大语言模型的上限也还有提升空间,年初 DS 带火的基于长思维链实现慢思考的推理能力,各家都积极探索。
从市场格局看,领先者座次也在动态变化中。中国信通院的调研发现,2024 年 4 月还是 OAI 处于领先,到年底文心就超过了 GPT,国内模型能力在快速上升。
百模大战至今,仍未尘埃落定。说明模型竞赛是一场技术马拉松,靠的不是一时一刻的领先,而是持续不停地奔跑。ChatGPT、文心、DS 等现象级产品,本质上都是大模型从高技术领域转入普及型全民应用的一个产品,并不是 AI 大模型技术体系的全部。
模型的创新之花持续绽放,常开不败,离不开底层 AI 技术体系的长期积累。而放眼国内,百度的 AI 底蕴,尤其是它的技术全栈布局确实是有目共睹的。

5 月 20 日百度 AI Day 活动上,百度集团副总裁吴甜也分享了文心大模型最新技术进展。在现场,我们感受到,文心 4.5 系列在多模态、深度思考、复杂推理、智能体等技术方向上,持续演进。
那么,百度能否战至基模终局?我们深入文心 4.5 的技术机理,为大家扒开百度的 AI 根系。

当下,基础模型创新已经进入了技术摸高阶段,低处易摘的果实都被摘完了,高处的果实又很难被摘下。比如确定性场景下的幻觉问题,类推理模型的深度思考能力还无法解决现实复杂难题等,都很具挑战性,但又是行业应用大模型时的痛点。
基模还能出现大幅度的升级迭代吗?这时候,文心大模型带来了肯定的答案。近两个月以来,文心大模型的技术创新,在速度和锐度上都很突出:
进化速度快,3 月 16 日百度对外发布了文心 4.5 和深度思考模型文心 X1。1 个多月之后,就发布了文心 4.5 Turbo 和 X1 Turbo。硬刚的百度又重回大模型视野中心。

创新点硬核,具有技术锐利度和识别度,比如文心 4.5T/X1 T 的最新更新,所采用的技术方法就跟此前和业界主流有较大突破。中国信通院的大模型推理能力评估结果也显示,百度文心 X1 Turbo 在 24 项能力评估中,综合评级获当前最高级 "4+ 级 ",成为国内首款通过该测评的大模型。
主要在两个领域有较大突破:
一是多模态领域。文心大模型 4.5 是多模态基础大模型,文心 4.5 Turbo 源自文心 4.5。文心 4.5 系列模型实现了文本、图像和视频的混合训练。通过构建针对不同模态的 " 异构专家 ",为每种模态设计专门的处理模块。这些模块能够根据各自模态的特点进行优化,例如图像模块专注于视觉特征提取,文本模块专注于语言理解,而视频模块则结合了时间和空间信息的处理能力。这种设计使得文心 4.5 Turbo 能够充分照顾到不同模态的特点,文本、图像和视频数据无缝融合,从而实现更高效的多模态学习。
结果就是,文心 4.5/4.5T 的多模态理解能力有比较大的提升,也让不少相关 AI 应用如虎添翼。比如 OCR 翻译,文心 4.5 Turbo 可以迅速识别单据中的外文并翻译出来;解答理科题目,可以对图像进行更好地理解与分析,明确已知条件和所求问题,再整合工具获取到的信息和自身知识,给出最终答案。

二是推理模型 reasoning model 的深度思考能力。文心 X1 升级到 X1 Turbo,得益于文心 4.5 Turbo 多模态大模型的增益,X1 Turbo 在深度思考上更进一步,实现了更先进的思维链,可进行多步骤的逻辑推理、工具调用和多模态理解能力。
具体来说,深度思考模型爆火之后,各家都在探索进一步优化。但大多数优化都集中于单步骤,让模型通过单步思考、单步调用工具来解决问题。但全靠人一步步填鸭式教学,教 AI 怎么做,不仅效率低下,而且模型能力提升有限。因此,需要让模型自主进行多步思考,学会举一反三。
百度在后训练环节,设计了多元统一奖励机制,提升模型对结果质量的判别。有了这种多元评判能力,大模型就可以思考很多步,谋定而后动,最后做出最优行动决策。这种多元奖励机制的强化学习,可以让模型探索出更复杂、多步骤的思维链和行动链,让模型在解决真实的长程、复杂性的任务上会有更好的表现。
最硬核的创新之花,同时出现在多模态和推理领域。这说明,哪怕是在创新难度更大的技术摸高阶段,百度仍稳稳站在第一梯队。

" 百度 2019 年发布文心 1.0,从那时到现在,百度大模型技术发展是一脉相承的 ",吴甜说到。
大模型持续演进,为什么技术根脉很重要? AI 不是一招鲜,而是需要通盘考量的综合问题。

在吴甜看来,模型上限仍有提升空间,而打开空间是需要很多前提条件的:
1. 数据层面来看,在大模型基础体系中,很多人觉得数据建设就是一些标记、清洗等简单处理工作,但数据建设的许多问题如果解决好了,模型会更高效地学到东西。比如文心 4.5 Turbo 是多模态模型,所以在多模态数据建设方面,就有许多新的工作,像是多模态的平行数据的构建,让模态和模态之间的知识和信息能够共享。此外,模型融合线上反馈的数据进行挖掘,让模型可以有针对性地改进和提升。
2. 知识角度,基于知识点的大规模稀缺数据构建也是这次模型的重要创新点。比如通过百度积累的知识体系,可以检测模型的数据分布上有一些地方是欠缺数据的,是冷门的、没什么人用的知识,再针对性地积累和挖掘。更完备的知识体系,可以为文心大模型提供高质量的训练数据。

3. 算法层面,文心 4.5 Turbo 和 X1 Turbo 在多模态能力上的表现出色,也与百度多年所积累的算法研发能力相关。除了前面说到的多模态异构专家建模,百度还引入了时空信息编码技术、自适应模态感知损失计算等前沿技术。综合下来,让文心 4.5 Turbo 在训练过程当中学习效率提高了 1.98 倍,多模态理解效果也有相应的提升。
而在深度思考方面,百度研制了自反馈增强的技术框架,来优化整个模型训练的过程,让训练的过程更加有效率,而且显著降低了模型幻觉,模型理解和处理复杂任务的能力大幅提升。
当前模型算法层面还需要不断创新,去提升大模型性能。百度的 AI 信仰、技术底蕴与人才厚度,支撑着文心持续演进。
4. 基础设施 infra。大模型性能提升的同时,成本下降也是至关重要的。基础设施层面的积累,对文心 4.5 Turbo/X1 Turbo 的研发起到了关键作用。文心 4.5 Turbo 是一个 MoE 架构的多模态模型,不同模态差异带来的问题更加凸显,不同模型的损失计算协同通信也是难题。而且模型的训练周期很长,训练过程当中,故障中断的解决、自动的恢复等,对基础设施提出了很高要求。绕到文心大模型背后,会发现是深度学习平台飞桨多年的积累以及不断扎实的整个平台的技术能力,支撑着文心大模型的快速迭代。

上述因素,也只是百度 AI 根系的冰山一角。百度庞大而复杂的 AI 根系,以及全栈式的 AI 布局滋养着文心大模型的创新常在。随着大模型走向技术摸高,百模大战也临近终局,我们越来越强烈地感受到,基模很难靠单一技术热点就能屹立不倒。
一方面,摘下高技术领域的果实,需要多要素的长期投入和跨领域协作。另外,进入技术无人区,当主流技术路线遭遇瓶颈时,拥有完整技术体系的企业可以快速切换路径,或尝试多技术交叉的新路径。
所以,当基模竞争的烈度进一步加剧,在风云变幻的技术浪潮中,根系深厚者才可以穿越周期,持续领跑。
文心能否站到终点?做科技媒体这么多年,一直会有读者问我们," 百度 AI 说得那么强,怎么总是赶不上热席 "。但只要让子弹飞一会儿,等到真的需要跟世界一流掰手腕的时候,百度却从未缺席。这是为什么?百度 AI 的独特性,被一位高一的小朋友敏锐洞察到了。
来自福建省惠安第三中学的陈君航,在本次开放日上分享了自己使用文心的感受:" 技术真正的魅力不是惊艳谁,而是真正解决一个又一个真实的问题。"

他从 2023 年开始,用文心一言中考备考,定制学习计划,解析搜题软件中无法解析的原创题目,还用文心一言编程写代码,为妈妈做了一款 " 智能文案生成器 " 的软件。
教育、解题、编程,这些都是现实场景中复杂的任务要求,需要 AI 大模型控制幻觉、严密思考推理,确保可信及可用性。这种与场景更适配的使用感,是靠多种技术体系协同解决,以及工程上的系统性创新才能实现。文心大模型,就是在做这样实用的 AI。
可以说,文心大模型一直走的是真实实用的路线,演进方向在思考能力建设上的体现是结构化和专业化。
比如 X1 的先进思维链与多模态能力,就可以让个人和行业伙伴 / 企业用户去完成更复杂的任务,基于文心的基模能力,打造代码智能体、直播数字人,可以真正帮助程序员、企业营销人员解决现实难题。
所以,文心大模型,不是看得见摸不着的海市蜃楼,而是可以真正被个人和企业移栽到自身生活工作场景中去的 AI 绿洲,生长着文心系列的一棵棵巨树,可以被嫁接到真实场景,结合各行各业的独特水土,培育出自己的 AI 根苗。

进一步让 AI 在产业落地生根,百度多年来也在生态上做了大量基础工作,帮助行业育苗树人。目前,飞桨和文心整个生态上有开发者 2815 万,支持的企事业单位有 67 万,模型已经达到了 110 万。在这个繁荣的 AI 生态中,智能中国也蔚然成荫。
进入 2025,大众与行业都很关切:百模大战,文心能否站到终点?我们不妨拆解为三个小问题:
根在技术的百度,有世界一流的创新能力与首屈一指的技术团队,能否始终确保文心大模型的先进性?
根在全局的百度,具备快速调整技术路径的战略纵深,在瞬息万变的技术领域,相比押注单一主流技术趋势的模厂,百度是否更具弹性和韧性?
根在现实的百度,拥有自主研发的昆仑芯 / 计算集群、飞桨框架、文心系列模型、繁荣技术生态,那么走向产业时,文心大模型是否更容易被信任?
临近决赛圈的基模格局正风云变幻,但 AI 根系深厚扎实的文心,或许才是最无惧风雨的那一个。
