阿里AI之路:耐心者的胜利
杭州三墩灯彩街 1008 号,是阿里云办公所在的园区,这里现在每周有 70 场参观讲解,访客们都因阿里的 AI 技术慕名而来。
这种 " 爆满 " 的盛况并非一直如此。一切的变化,都来自于近两年阿里在 AI 技术领域的不断爆发。
2022 年 11 月 30 日晚上,达摩院有不少人辗转难眠,因为那天 ChatGPT 虽然没有任何宣发的上线,却替其他所有 AI 企业们,更换了一个行业新范式,他们比大多数人更早地知道大洋彼岸正在发生的技术变革。
2025 年 4 月 28 日,Qwen3 发布前的晚上,阿里通义团队又再次无眠。外部媒体询问上线时间的消息不停轰炸,而屏幕上开源代码的上传进度条始终在缓慢爬升,所有人像在产房外焦急等待孩子落地的年轻父亲。
不同的是,这次不眠夜后,阿里成为了主角,Qwen3 毫无悬念地登顶了开源模型榜单的榜首。部署旗舰版 Qwen3-235B-A22B 只需要 DeepSeek-R1 三分之一的成本。

更早一些的 2 月份,阿里又被传将成为挑剔的苹果在中国的合作商,并且双方共同开发的 AI 功能已提交监管机构审批。
短短两年时间,阿里就在公众视野中变成了一家存在感极强的 AI 公司。但在回溯历史,走访多位相关人士后,我们却发现阿里 AI 之路的种子似乎在 2007 年就已经埋下。
阿里的 AI 之路并不是一个高效的商业故事,中间存在着反复,错误,也有蛰伏和坚持。在一个巨大商业帝国的背面,认清它的价值需要时间,更需要勇气,也正是在巨擘的空间里,一点点的冗余保证了天才的火种和基因得以存续,蔓延,能始终留在技术变革的牌桌上。

在 2022 年 11 月云栖大会之前,达摩院其实有一次成为中国 OpenAI 的机会。
接近达摩院的一位资深员工说,他不止一次回想过这件事。
2022 年 11 月的云栖大会前,他们团队内部讨论过多次,要不要把当时已经达到万亿级参数 M6( MultiModality-to-MultiModality Multitask Mega-transformer )在大会上推出。但再三纠结后,他们还是犹豫了。
彼时,达摩院自研的多模态预训练模型 M6,已经是当时世界上最大的预训练模型之一。这也是阿里通义的起点。
当时国内主要还在做小模型,M6 这样体量的大模型出现尚属首次。并且,超前地选择了多模态,可以生成文本、图片还有音频等,能做到写小说和作图。
至于犹豫的原因,我们推测可能是彼时的环境下,中国企业习惯了在前沿科技上跟随美国,ChatGPT 出现前,M6 的价值评估到底如何,大家心里也没底。M6 完成了不少突破,但用更严格的标准来说,其性能还没有 " 爆炸性 " 地强。

尽管如果现在回看 M6 的发育,可以说是极为快速和夸张。
2020 年,当时的达摩院智能计算实验室负责人周靖人组建了一支十几个人的小团队,启动了该项目。从 0 成长为 10 万亿参数模型,他们只用了 1 年多。
彼时,M6 上的很多技术,也都成了现在业界 AI 技术中的主流。
当时团队就采用了如今业内流行的 MoE( 混合专家 )架构,也就是让一个大模型根据不同任务,调用内部多个专家。
他们改进了 MoE 框架,创造性地通过专家并行策略,大大扩增了单个模型的承载容量。所以 M6 格外省算力,只在 480 张卡上就完成了万亿级参数的模型训练。
有意思的是,在 M6 的背后,你能见到很多熟悉的名字。比如清华大学教授唐杰,后来他创立了智谱,而唐杰的学生之一杨植麟又是 Kimi 的创始人。
但即便集合了当时国内最顶尖的人才,整支团队也并不知道自己到底能不能成,最重要的是到底怎么用。
这种奢侈的理想主义,给团队带来了巨大的压力。
2014 年的时候,在大家还在聊 O2O 时,马云在硅谷成立了 iDST( 数据科学与技术研究院 )。并且花重金挖人,从漆远到金榕、司罗,再到任小枫。
最开始,iDST 野心勃勃地承接了建立超大规模 GPU 机器学习集群、机器学习平台等任务。
但即便有期望在前,在残酷的竞争环境和体制之中,理想主义的存在也是奢侈和艰难的。
仅一年时间,因为研究商业化等原因,人员被打散放入各种实战业务部门里:漆远去了蚂蚁金服,而金榕调入淘宝天猫,语音团队并入阿里云。

直到 2017 年,阿里巴巴启动了 NASA 计划,要面向未来 20 年组建强大的独立研发部门。再次将 iDST 和 AI Lab 等核心实验室合并为一个实体组织,起名达摩院。
阿里到底在这上面投入有多少,有一张图或许可以说明一二。达摩院成立前夜,一张马云宴请科学家的照片广为流传。

在一堆高密度人才架构中,过于前沿的技术,谁也不知道到底行不行,但是就是在这里,奠定了阿里 AI 的人才和技术基础。

就在他们放弃把 M6 大张旗鼓公之于众的 27 天之后,ChatGPT 上线引爆了全世界,人们迅速忘记了 M6 。
实际看到 ChatGPT 之后,达摩院也不得不承认自己确实和对方有着不小的差距。事实上,当时全世界都和 OpenAI 有差距。
从某些方面来说,这样的差距不可避免。
M6 采用的是 BERT 架构,将解码器和编码器集成在同一框架中,而 OpenAI 走是单向模型的路线,只做解码器的部分。简单来说,就是 ChatGPT 只能从左往右或从右往左地读一行字,而 BERT 是同时从两边处理一句话,也可以在未标注过的数据上学习。
从理解速度上来说,M6 所采用的方向要高效得多。但固执的 ChatGPT 靠着猛堆参数量,做到大力出奇迹,突破了单向模型理解能力差的瓶颈。非主流的方向性选择,孤注一掷或许一鸣惊人,多数一败涂地。
面临路线更改的局面,达摩院只给了自己 4 个多月的时间,去追上 OpenAI 。
高压和焦虑,反而让团队内部上下拧成一股绳。不仅如此,彼时达摩院 2000 多人里,有一半都是从事 AI 相关研究。外界戏称达摩院为少林派护法,其人才储备是兵家抢人必争之地。
最终,赶在 2023 年 4 月中旬,阿里用通义千问这个名字将大模型上线邀测,也是当时国内第二个上线的大模型。

2022 年的云栖大会上,达摩院虽然没有公布 M6 ,却成立了一个社区——魔搭社区,这是国内首个 AI 模型开源社区。
这成为了通义大模型道路上最重要的一步。当时达摩院把手头上三四百个模型全部都对外开源了。此后 Qwen 的每一代模型,不管投入了多少资源,都会第一时间在魔搭上主动开源开放。
这并不是常见的事。事实上,在 DeepSeek 出现以前,开闭源一直都是业内争论不休的话题。即使开源更可能降低研发和应用的门槛,便于开发者快速定制 AI 解决方案,更接近于实现 " AI 普惠 " ,但因为商业化困难,闭源流派一度占了上风。
但,慷慨的选择,给通义带来可观的 " 收益 " 。" 通义千问刚上线时,与头部闭源模型还有相当一段的距离,在开源之后快速地就追上了," 一位接近魔搭社区的人士提到。全世界的开发者都同步在使用和反馈模型的情况,直接助推了 Qwen 模型的更迭。
到今年,Qwen 已经彻底超过 Llama 成为全球最大的 AI 大模型家族。
全球最大的模型开源社区 Hugging Face 上,有开发工程师形容通义是 " 最卷 " 的模型。差评君简单地梳理了通义团队的发布日程,发现基本每隔两个月就会有一个大更新。
2024 年,2 月 Qwen 1.5 更新,3 月更新视觉大模型 qwen-vl Plus 和 Max 。6 月份上线 Qwen2 ,3 个月后,又发布了 Qwen2.5 ,并且覆盖了从 0.5B 到 110B 不等的全尺寸模型,自此性能超越了 Llama3 。2025 年至今,又已经出了数款新模型。
高密度的更新之下,通义团队们也再没有因同行的变动而慌乱过。
2024 年 3 月 18 号,Kimi 长下文突破 200 万,通义在 5 天后,按自己的节奏宣布了能处理 1000 万字的长文本新模型。DeepSeek 带火了深度思考推理后,通义团队已经不再焦虑着急切跟进,而是在沉淀后推出兼具 " 思考 " 和 " 快速回答 " 能力的 Qwen3.
值得一提的是,Qwen 3 旗舰模型架构为 MoE( 混合专家模型 ),而当年 M6 正是业界成熟使用该架构的 " 先驱 " 模型之一。
处理任务时,只调用部分专家来处理任务,所以每次激活参数量不大,只有 22 B,使其速度快,能耗小。所以 Qwen3 的参数量有 235B ,成本却可以做到 DeepSeek-R1 的三分之一。
Qwen3 的发布,证明了通义千问已经完全跻身全球最顶尖大模型梯队。黄仁勋在最新的财报电话会上,点名 DeepSeek 和千问是开源 AI 模型里最好的。
当年种下的种子,一直在影响和帮助通义续写阿里的 AI 故事。
Qwen3 后训练图示


2025 年 2 月的一场财报电话会,彻底展现了阿里在 AI 上的野心。
2025 财年第三季度财报发布后,阿里巴巴美股上涨 8% ,港股大涨 10% ,其中,白纸黑字的数据把阿里云推了出来。阿里的云智能集团收入 317.42 亿元( 43.49 亿美元 ),同比增长 13% ,利润同比增长 33% 。

数字的背后,是云服务成为 " AI 时代的电力基建 " 的业务逻辑被市场所认可。
有业内人士认为,未来可能有 90% 的 token 都在 AI 公共云上进行。而阿里云上有 500 万的客户,是全球第四、亚洲第一的云。
今年 4 月 10 日,吴泳铭曾对内提出了一个目标。虽无法获知具体数字,但接近阿里云的人士透露,如果按照吴泳铭制定的计划推进,阿里云以后可能会占到阿里巴巴总收入的 20-25% ,如果乐观来估计甚至可能达到 30% 以上。
这意味着阿里云将会成为业务利润上挑大旗的存在之一。因为今年亚马逊云科技业务的收入是 1076 亿美金,占总收入的 16.9% 。但它却贡献了 58% 的利润。
在那次财报会上,吴泳铭还提出在 AI 基建上的投入超过过去十年的总和,这里巨大的想象空间,让所有人都无法再忽视它。
在这之前,阿里的核心业务就已经开启了一场升级改造,全面进行 AI 化转型。据传, " AI 增量指标 " 也被纳入到相关员工的考核体系中,2025 年的绩效将通过如何利用 AI 促进增长来评估。
而在各种 AI 化的升级中,夸克是最出乎大家意料的一个业务。
最显而易见的是夸克成为了阿里 AI 旗舰应用。阿里巴巴智能信息事业群总裁吴嘉,直接向吴泳铭汇报工作。
在阿里财报会上,吴泳铭又再次点名夸克在 C 端积累的用户基础。
一时间,夸克这个低调的应用,成为了阿里面向 C 端的排头兵。
其产品能力也在迅速迭代。去年 7 月第一次提出 " 超级搜索框 " 的初步构想,今年年初,升级成为 " 2 亿人的 AI 全能助手 " 。在 3 月份上线 " AI 超级框 " 后,又在近期发布 " 深度思考 " 能力,对夸克的要求进一步明确为用 Agent 产品服务用户。

但聚光灯的亮度,是由炙热的温度作为代价的。
对其他 AI 原生应用或者本就功能繁杂的应用来说,这样的变动并不稀奇。但靠搜索业务起家的夸克,行事风格一直是谨慎和克制。
夸克的团队从建立到现在,人员流动性远低于其他项目团队,在过去几年的阿里成为一个 " 异类 " 。
在业内人士看来 " 做搜索是一个需要耐心的重活 " 。只是一个搜索排名的变动,比如要先显示哪条检索结果,用户端都会有非常大的感知。
同时,夸克年轻用户占比超过 50% ,面对爱表达的群体,任何的变动都变得更加谨小慎微。
按以往的节奏来说,夸克的一个小功能,从用户调研、清洗数据,再到最后的产品打磨,需要最少半年至一年的时间。
夸克对功能新增也一直有非常高的准入门槛,一些不符合 " 调性 " 、打扰用户的功能,绝不允许加入。比如弹窗签到、转盘得金币这些为了保持用户黏性的常见功能。甚至连 icon 的颜色和摆放位置,都需再三斟酌。
被推到台前后,压力使得夸克内部的发条被绷紧。
" 我们处在一个高压的产业环境里。内部人的压力都比较直接,对产品服务能力的要求也会更高。" 一位接近夸克的人士坦言道。
ChatGPT 发布后,夸克投入了大量工程师开发自研大模型,并和通义等团队保持紧密沟通。
除了基础模型之外,应用功能也必须保持高速的更新频率,把新技术成果迅速导入到应用层。仅是 2024 年,夸克就上线和升级了 AI 写作、AI 搜索、AI 解题大师等一系列全场景的 AI 能力。今年又先后加码了深度搜索和 AI 相机等能力。
面对阿里如此大规模的 AI 革新,带来的一个必然问题是:真实 " 药效 " 到底有多少?用户是否真的能够消化?
在这个问题上,离钱最近的商家们,或许是感触最明显的。" 你都不用怀疑,因为 AI 能做到的获客成本,人是办不到的," 一位年轻的外贸老板刘世奇对我说。
他所说的获客成本,指的是运营在投流推广时,捕捉单个客户的营销费用。
一般来说,为了降低营销成本,需要拆分客户画像,对比数据和优化关键词。作为获客的关键一环,头部企业甚至会聘请职业的运营投手专家负责。
而这个岗位刘世奇一直都是自己亲自上手。专做阿里国际站美国市场的他,只靠 6 个人的团队,就做到了年销售额 3000 万。
刘世奇在美国卖爆的拖鞋

过去,为了倒时差蹲守客户,在公司等到早上 6 点多才回家是家常便饭。
但现在,他回家晚了更可能的原因是和员工打游戏开黑。
他帮我算了一笔账,同行 TOP 10 的商家手动推广后,获取单个人的商业成本是 127 元,而他们 AI 全托管投放后,一个客户只要 35 块。
所以,即便现在已经有财力招聘运营投手,运营岗也不在他们今年的团队扩张计划里。
" 因为不太需要了 " ,这个年轻的老板对 AI 的信任度非常高。运营所需要负责的询盘、选品、获客营销已经全部交给 AI ,人工需要 30 分钟上一个的产品链接,AI 只要 1-2 分钟。
在实际的省钱和省力面前,只用工具也就成了商家们自发的行为。阿里国际站一位内部人士和我们透露说,现在国际站外贸商家中,一半以上都已经在使用他们的 AI 工具,每天大概稳定有 10 万商家。

当我们回过头来梳理整条线,会发现阿里的爆发,并非一夜之间的转向。这更像是一场长期的乌托邦式豪赌。
阿里内部人士总结称," 这是时间、空间、人员的冗余,加上一点点的自由无用。"
或许大的企业存在着组织摩擦的惯性,但也可能只有大企业能够在变革中保持前列的竞争力。达摩院构筑起的技术飞地,在经历了持续高的人力支出,业务变动,技术路线摩擦后,终究开枝散叶。
2007 年的 9 月 28 号,在宁波一个逼仄的封闭会议室里,马云给了当时的团队抛了两个问题。第一个是算力,第二个是数据。
在内部员工们看来,这才是阿里巴巴走向科技公司的起点。两年后,为了解决算力问题,阿里云成立。之后,肩负着 " 数据驱动未来使命 " 的 iDST 和达摩院成立。
尽管这些理想主义的尝试,曾让阿里饱受争议。可是面对下一次豪赌,阿里依然全力投入。
5 月 6 日,阿里在西溪园区复刻了曾经的湖畔小屋,让集团重拾 " 创业 " 精神。之后,吴泳铭的内部信中,又一次提到要放下过去成绩,回归创业者心态,开启一段全新征程。
围绕 AI、云等核心业务的硬件与资源投入,再次被敲定为这场 " 饱和式投入 " 战役里的重点之一。
至于这次全力投入是否能够成功,阿里并不焦虑。
因为阿里从来不是一个技术的匆忙上马。它真正想建立的是一种以算力为底层,以共享科技和应用为顶层架构的生态系统。正是这种深层次的战略定位和技术基因,使得阿里能够在 AI 浪潮的持续迭代中,始终稳坐牌桌。即使在技术更替出现短期的动荡中,它也从未迷失——因为充足的储备,能帮阿里人迅速找准方向,再次前进。
某个技术的爆发,只是轻轻推了这艘巨轮一把。
撰文:四大 & rick