130天后李想再谈AI:评梁文锋两大“杀手锏”,拆解VLA如何炼成
车东西(公众号:chedongxi)作者|郭月 张睿编辑|志豪
李想大赞DeepSeek以及创始人梁文锋,开源星环OS以表感谢。
车东西5月7日消息,就在刚刚,理想汽车创始人、董事长兼CEO李想在《理想AI Talk第二季》重点分享了对于人工智能的最新思考,VLA司机大模型的作用、训练方法和挑战,以及对于创业和个人成长的见解。
▲理想AI Talk现场
李想对DeepSeek以及其创始人梁文锋给出了高度评价,他说从DeepSeek学到的最重要的一件事,就是如何构建模型能力。
李想本人包括谢炎(理想汽车CTO)的内心很感谢DeepSeek带来的帮助,觉得应该给对社会贡献点什么,不让行业那么卷,并称开源星环OS“说白了纯粹是感谢DeepSeek。”
李想还提到了他对AI未来发展的看法,VLA司机大模型成为交通领域专业的生产工具。
李想介绍了VLA的应用价值,他表示,规则算法是“昆虫动物智能”,端到端模型是“哺乳动物智能”,VLA司机大模型是“人类智能”。
对于特斯拉FSD入华后的表现,李想表示特斯拉并未释放出真实能力,要和特斯拉学基本功。
李想也回忆了创业十周年间的艰难时刻,2024年至2025年年初,理想自动驾驶核心团队成员几乎接到超过20个猎头电话。李想还分享了他本人的心路历程,成为更有能量的人,关键在于关注自我,接受自身的优点和不足,并用成长替代改变。
从信息量来看,这一小时的面对面沟通可谓是干货满满,李想带来了关于人工智能和辅助驾驶更深的思考,这也意味着理想汽车在朝着人工智能企业转型的路上留下了更坚实的足迹。
一、李想高度认可梁文锋自律 开源星环OS感谢DeepSeek
在理想汽车AI Talk第一季,李想首次全面、深入分享了理想在AI转型方面的进展,目前已经过去了130天。
▲理想汽车创始人、董事长兼CEO李想
对于这一期间的变化,李想回应,130天看到的是整个中国的进步,对中国人工智能更有信心。
过去130天国际环境在发生重大的变化,技术也在发生变化,但技术最大的变化还是中国在人工智能方面带来的变化,美国的变化反而没那么大。
李想说,包括DeepSeek、通义千问在内等中国模型,已经跟美国的距离基本上拉近了,或者基本上在一个水平线上了,这些方面做的都非常的好。
李想介绍了他从DeepSeek上吸取到的经验。DeepSeek运用了人类的最佳实践,比如说DeepSeek V3采用了一个671B的MoE(混合专家模型)。
▲李想从DeepSeek上学到的内容
李想认为,MoE(混合专家模型)是个非常好的架构。专家能力是怎么来构建的?DeepSeek展示了一个最佳实践,第一步一定要先搞研究。搞完研究以后其实才搞研发,第三步是要把能力表达出来,然后第四步是能力变成业务的价值。
▲李想认为能力构建的过程
这四个步骤是个极简的人类最佳实践,研究跑通了以后,研发效率会变得非常的高。但是研发又非常在意价值,能够把价值表达出来,然后变成业务,这是一个很重要的过程。
李想也对DeepSeek创始人梁文锋给出了高度认可。
去年的9月份,李想在和梁文锋的沟通中发现,他是个特别自律的人。并且他是会在全世界范围之内去研究和学习最佳实践和最好的方法论的人。
李想还说:“我自己内心,包括谢炎(理想汽车CTO)的内心想法是,DeepSeek给我们带来那么大的帮助,我们应该给对社会贡献点什么,不让行业那么卷,说白了开源星环OS纯粹是感谢DeepSeek。”
▲理想开源星环OS
为什么有了DeepSeek,理想还要自研基座模型?李想回应说:“核心在场景需求不同,我们要做车载多模态交互,尤其是VLA(视觉语言行动模型)——需要3D/2D视觉融合,叠加汽车、交通、家庭场景的专业语料,这些垂直领域的数据和训练逻辑,是通用模型没覆盖的。”
对于人工智能未来的发展,李想表示,当AI成为生产工具,人工智能才会迎来爆发时刻。
李想将AI工具分为信息工具、辅助工具和生产工具,他认为当AI成为生产工具时,人工智能才会真正爆发,只要人类会雇佣专业司机,人工智能就能成为生产工具。
▲李想认为工具的三个分级
二、辅助驾驶正经历黎明前的黑暗 VLA能力有机会超过人类
李想对于当前辅助驾驶发展的争议以及前景进行了回应。
今天的辅助驾驶其实走到了一个新的十字路口上,有的人说甚至觉得辅助驾驶应该被叫停。
李想认为,理想这么多年,从规则算法,做到了端到端 VLM,然后今天真正的迈入到了VLA(视觉语言行动模型)的阶段,比较像黎明前的黑暗。辅助驾驶行业遇到了问题,这些问题(存在)恰恰是理想的价值所在。
▲李想认为目前辅助驾驶处于黎明前的黑暗
为什么人类一定需要辅助驾驶?
对于这个问题,李想解释说,只要人类会雇佣专业司机,人工智能的司机就存在需求。人工智能技术其实就是把类似这样的一些功能和角色,去变成真正的生产力、生产工具,然后去进行替代。
李想还说明了人工智能的司机应该达到的标准,李想表示,这和选员工一样:专业、职业、信任。理想要做的人工智能,是有人类价值观的人工智能,价值观就像是给人工智能的边界线、双实线,要让人工智能有道德、有边界。
李想还详细回应了关于VLA司机大模型、人工智能等多个话题。
李想对VLA给出了更容易理解的解读,简单说,就是让汽车像人类司机一样思考行动的“大脑”。
VLA司机大模型以“司机Agent(智能体)”的产品形态呈现,用户可通过自然语言与司机Agent沟通,跟人类司机怎么说,就跟司机Agent怎么说。简单通用的短指令由端侧的VLA直接处理,复杂指令则先由云端的VL基座模型解析,再交由VLA处理。
▲司机Agent(智能体)
李想介绍了VLA的模型架构与发展历经阶段。他表示,VLA的实现不是一个突变的过程,是进化的过程,经历了三个阶段,对应理想汽车辅助驾驶的昨天、今天和明天。
第一阶段,理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶,类似“昆虫动物智能”。第二阶段,理想汽车自2023年起研究,并于2024年正式推送的端到端 VLM(Vision Language Model,视觉语言模型)辅助驾驶,接近“哺乳动物智能”。
▲李想认为辅助驾驶进化过程
端到端模型在处理复杂问题时存在局限,虽可借助VLM视觉语言模型辅助,但VLM使用开源模型,使其在交通领域的能力有限。同时端到端模型也难以与人类沟通。为了解决这些问题并提升用户的智能体验,理想汽车自2024年起开展VLA研究,并在多项顶级学术会议上发表论文,夯实了理论基础。
▲VLA司机大模型训练与推理过程
在端到端的基础上,到第三阶段,VLA将开启“人类智能”的阶段。
它能通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。同时,VLA拥有完整的脑系统,具备语言、CoT(Chain of Thought,思维链)推理能力,既能看,也能理解并真正执行行动,符合人类的运作方式。
▲辅助驾驶强化学习
李想还列举了端到端 VLM(视觉语言模型)架构可能无法解决,但VLA(视觉语言行动模型)可以解决的corner case(长尾案例)。
他表示,VLA的突出优势表现在两方面,一方面是对复杂东西的理解,VLA(司机大模型)能够有效地去处理了,而且不需要通过海量的数据训练。
另外一方面是跟人沟通,虽然今天VLA可能能力还没那么强,像一个刚从驾校学完的新手司机,但还有一个成长的过程。
虽然VLA较端到端 VLM实现了巨大提升,但有可能一步直达VLA吗?
李想表示没有可能,他表示,VLA的诞生不是突变,而是进化,端到端是VLA的基础。只有做好规则算法,才能知道如何做端到端,只有把端到端做到极致水平,才有机会去做VLA,这个过程没有捷径。
对于VLA的应用前景,李想充满了信心。他举了DeepSeek爆发的例子,“拥抱DeepSeek的速度比想象中快,所以VLA到来的速度也比想象中快。”
VLA(视觉语言行动模型)是终极的架构吗?李想表示,VLA(司机大模型)能够解决到全自动驾驶,但是VLA(司机大模型)是否是一个效率最高的方式,是否有效率更高的架构出现,这些还要打个问号,他认为大概率还是会有下一代架构的。
不过,李想表示,VLA是现阶段能力最强的架构,它的能力是最接近人类的,甚至有机会超过人类。
针对理想汽车的人工智能的探索历程,李想感慨到,理想人工智能走的是无人区。
李想说:“做VLA,理想走的是一个无人区。Deepseek没有走过这条路,OpenAl没有走过这条路,谷歌、Waymo也没有走过这条路。理想以前走的是汽车的无人区,以后走的是人工智能的无人区。”
三、理想辅助驾驶团队险被挖角 特斯拉FSD入华未释放真实能力
李想之前对内说过一句话,说理想的智驾原创性超过了增程。
李想说:“我们在这方面的研究工作真的做得很深。为了做好这个辅助驾驶,我们还做了操作系统,构建了完整的训练体系,甚至直接去改芯片、底层软件,这方面工作肯定做的比这个增程做的工作量更多。
李想还透露:“2024年和2025今年年初,我们每一个辅助驾驶团队的核心人员可能基本上都会接到20个以上的猎头电话。”
李想还谈论了特斯拉FSD在华表现等问题。
李想判断,从实测来看,特斯拉大概在用FSD V12.5之前的模型,距离特斯拉真实能力还有巨大的差距。特斯拉FSD V13.0以后的能力还是非常强的,特斯拉基本功是非常扎实的。
李想也进一步解释了为什么特斯拉没有在华释放真实的能力的原因,中国有着极为复杂的路况,如果直接上端到端,遇到这些复杂的场景,还是会遇到挑战。
四、创业十周年之际 李想自述耐受力很差
除了分享理想汽车在VLA大模型上的探索进展及成果外,李想还分享了创业及对人性的思考。
今年7月份是理想成立十周年,站在今天,李想回忆了创业十年的幸福时刻和痛苦时刻。
李想脑海中第一个最重要的画面,是2018年理想ONE(参数丨图片)第一次发布,一直延续到2019年的4月份,上海车展第一次带有价格的正式展示,理想真的做出来一辆车,并且受用户喜欢。在上海车展的展馆里面,理想是人流量最大的一个展台。
▲理想ONE
另一个是2022年发布L9的时候,到了2025年,还有至少5个企业因为当时L9的成功,在打造跟L9相同的产品。
刚经历了L9的幸福,痛苦就出现了。
李想回应到,那时候全网的黑公关都说理想汽车倒闭,那一个季度理想亏了将近二十亿,忽然从巅峰掉到谷底,理想认识到很多能力不足,但正是因为这件事情,理想调整后在2023年做到了1200亿的收入。
李想说:“反正我创业那么多年了,当问题来的很多时候,又是一个更大的机会的到来。所以我对这方面其实也没那么纠结。我对于不正常的事情耐受力很差,但我对于一些不好的东西解决完以后,整个记忆能力也很差,会把它忘掉。”
李想也进一步分享了自己创业的心路历程。
就如何能吸引到更多能量的人,李想谈了自己的看法,他认为要关注人,尤其是关注那些离得最近的人,关注亲密关系的人,关注人的时候首先你得先关注自己。
李想介绍了他是如何关注自己的:“第一,我会接受自己所有的优点。第二个是要能接受自己的不足。第三是用成长替代改变。”
李想还补充说,他在做理想汽车的时候就非常注重资本,请最好的FA(财务顾问),请最好的律所,“今天大家可以看到所有的新势力企业里面,理想汽车的股权架构、治理结构、资本现金管理都是做得最好的。”
李想说:“我并没有改变我的业务,其实是增强了一个能力,所以它是个成长。我们会面临方方面面的能力成长,就能给自己带来能量。”
李想还讲了如何带来能量,第一能自己产生能量,第二能够带给别人能量,第三能从别人那获取能量。
结语:VLA大模型竞争加剧
当前,VLA也被业内越来越多人视为实现L4级自动驾驶的关键路径,能够通过语言模型引入逻辑推理能力,突破端到端模型的黑箱局限。
关于VLA的竞争已经打响,理想、元戎启行、吉利汽车都已布局,行业正展开“军备竞赛”。
理想汽车在去年二季度财报电话会议上表示已启动端到端VLA模型的研究,随着VLA的落地上车,理想汽车有望进一步让用户体验到“专职司机”水平,加快从新能源汽车制造商向人工智能企业的转型。