具身智能的哲学反思①|刘永谋、白英慧:具身智能“身体”实现的四个环节

近期,大模型和人形机器人备受社会各界关注,很多人在思考:如何让二者有效“融合”切实推动具身智能的发展?顾名思义,具身智能是具有“身体”的人工智能。具身智能为大模型的应用提供了更广阔的平台,使之从“赛博空间”走向物理世界;具身智能让机器人变得更“聪明”,与人类的交流更为顺畅。具身智能的发展给哲学反思带来不少挑战,本组笔谈聚焦具身智能的定义、本质特征、类型和实现的可能性等基本理论问题,以期推动该领域研究的进一步发展。刘永谋、白英慧认为,追问具身智能的“身体”问题,主要涉及“身体”的划界、预装、融合与赋能等方面,这些问题相互交织、层层递进。

本系列文章原刊《福建论坛(人文社会科学版)》2025年第4期,澎湃新闻经授权转载。

【摘要】在AI专业领域中,主流观点将具身智能视为大模型与机器人的融合。与离身智能不同,具身智能依赖于具有可区分性和可控制性的“身体”。这意味着具身智能需要进行“身体”预装,即通过编码嵌入和人群学习路径,将世界模型和躯体标记内嵌于机器人,使其具有一定的“身体”智能。“身体”预装应从实用主义出发,综合考虑“身体”的形状、大小、材质及重量,盲目模仿人形并非最佳选择。更进一步来说,“身体”与大模型的融合并非简单拼凑,而是强调整体性,目的是导向具身认知。“身体”能够赋予机器人四大核心能力,即感知能力、空间能力、交互能力和情感能力,从而显著提升机器人的整体智能水平。

在2025年第十四届全国人民代表大会第三次会议上,具身智能首次被写入政府工作报告,并被列为未来产业培育的重点方向。近年来,机器人产业(尤其是人形机器人)的快速发展,使得具身智能在人工智能领域备受关注。在相关研究中,“身体”问题已成为具身智能探讨的核心议题,涵盖“身体”的划界、预装、融合与赋能等关键环节,亟需进行系统梳理和深入探讨。其中,“身体”的划界问题旨在区分“身体”和“非身体”,厘清具身智能的物理与功能的边界;“身体”的预装问题追问“身体”智能的前设条件,剖析其预装路径和困境;“身体”的融合问题包括“身体”与大模型深度耦合的本质和面临的挑战;“身体”赋能问题则关注“身体”赋予具身智能的关键能力。这四个问题彼此交织、层层递进:“身体”划界是预装与融合的前提,“身体”预装为融合与赋能提供可能。这个框架不仅是对具身智能的哲学反思,也为其技术实现和应用落地提供了思考方向。

一、“身体”与“非身体”的划界

具身智能(Embodied Intelligence)作为一种智能范式,强调智能是在“身体”与其所处环境的持续交互中涌现的。瓦雷拉等学者认为,“具身”概念强调两点:“第一,认知依赖于经验的种类,这些经验来自具有各种感知运动的身体;第二,这些个体的感知运动能力自身内含在(embedded)一个更广泛的生物、心理和文化的情境中”。与离身智能(如ChatGPT、DeepSeek等)不同,具身智能强调智能对“身体”的依赖性、“身体”与环境的统一性,反对将智能视为脱离“身体”而存在的抽象的计算过程或符号操作。换言之,区别具身智能与离身智能的核心问题在于:智能的生成与实现是否必然依赖“身体”。有观点反驳称,离身智能同样具有“身体”(如处理器、内存、传感器等硬件装置),这类智能虽然主要基于软件层面的计算逻辑,但仍离不开物理硬件的支持。这种观点在本质上对“身体”概念的理解存在偏差。

“身体”并非单纯的物理载体,其具有双重属性:既是客体,又是主体。在西方哲学史中,关于“身体”的讨论长期受到笛卡尔身心二元论的影响,“身体”被视为独立、纯粹的物质实体,类似于一部复杂的机器,受控于心灵。在此语境中,离身智能将“身体”视作客体,以一种抽象化的、第三人称的视角界定“身体”,认为“身体”仅仅是信息输入和输出的通道,忽视了“身体”在感知、认知和交互方面的主动作用。与之相对,具身智能认为,“身体”不仅是信息处理的媒介,更是感知世界、体验情感、执行意图的主体,是智能活动的内在参与者。具身智能从能动的、第一人称的视角理解“身体”,认为“身体”在环境中的体验构成了智能生成的基础。正如梅洛-庞蒂所主张的,“身体”与“心灵”融为一体、不可分割,可被称为“身体主体”,其不仅仅作为物质载体而存在,还作为感知—运动的主体与具体情境持续互动。

因此,在具身智能的语境下,“身体”与“非身体”的划界不仅取决于其是否拥有物理基础,关键还在于其是否具备主动感知、交互运动和灵活适应的能力。具体而言,“身体”的核心特征在于可区分性和可控制性。可区分性意味着,具身智能虽然始终嵌入环境之中,但仍具备从根本上区分自身“身体”与环境的能力。埃塞基尔·迪·保罗和埃文·汤普森提出的“自我个体化”(Self-individuating)概念强调,“身体”能够主动生成并维持自身与环境之间的区分。这种区分能力依赖于“身体”的多层次感知系统:环境感知用于接收外部信号,“身体”感知用于监测内部状态,而内容感知则涵盖话语、思想和共情感知,依托于其它感官所提供的信息而工作。这些感知机制协同作用,共同塑造了“身体”的可区分性。例如,现有的许多机器人模仿人类身体的多层次感知系统,已经初步具备了多模态感知的能力,能够在一定程度上区分自我运动与环境扰动。

以可区分性为基础,可控制性进一步强调,“身体”能够自主调整或在大模型的调控下改变自身的基本形态、运动路径和交互方式,以适应环境并完成特定任务。与之相比,“非身体”通常形态固定,缺乏运动与动态交互的能力。在具身智能的技术实践中,波士顿动力公司的Atlas机器人展现出高超的运动控制能力,能够完成跳跃、后空翻等复杂动作,并在遭受外力干扰时能即时调整姿势以维持平衡。该机器人还能根据地形的变化动态调整关节角度,实现在崎岖地形上的平稳行走。此外,具有柔性结构的软体机器人具备自适应形态调整的能力,能够根据外部环境主动调整自身形状与柔软度,从而优化运动模式。

二、具身智能的“身体”预装

如前所述,具身智能的“身体”并非只是由传感器、执行器等构成的物理系统,还具有可区分性和可控制性的特征,此种特征的实现需要借鉴人类拥有的世界模型以及躯体标记的能力。2007年,英国认知科学家克里斯·弗里斯和卡尔·弗里斯顿提出“世界模型”的假设,认为人类大脑中存在着一个“反映物理世界和他人的思想世界”的模型,人类的大脑将这一模型与身体感知到的内容进行对比,以减少预测误差并不断优化模型。而感知最初所需要的一些先验知识,已经过数百万年的进化植根于人类大脑之中。“世界模型”假设的提出有助于智能体理解真实的世界,进而具备因果推理、预测分析等能力。2018年,大卫·哈等人将世界模型概念系统性地引入人工智能研究领域,这引发了学界的热议,认为它不但包含着对世界的理解,而且指向了对未来的预测。除了世界模型,躯体标记的能力对于具身智能也十分重要。安东尼奥·达马西奥指出,情绪通过躯体标记的方式参与推理过程。在某种情境下,当负面结果出现时,人体验到不愉快的躯体感受,即达马西奥所称的“躯体状态”。此种负面结果与某种情绪相关联,便形成了躯体标记。当类似情境再次出现时,身体便会表现出某种躯体状态,负面结果立刻被预测,躯体标记从而参与到推理过程之中。需要指出的是,躯体标记可以在意识之外做出预测、进行推理,这意味着身体本身具备了一定的基础性智能。

不难看出,将世界模型和躯体标记预装进机器人的“身体”无疑将打造更加类人的具身智能。大致来说,存在着两条预装路径:编码嵌入和人群学习。编码嵌入路径通过形式化语言,将世界模型中的人类常识以及人类的躯体标记编码为机器人可识别的符号规则,但这面临着三重困境。首先,常识和躯体标记难以穷尽。常识作为一种覆盖面极广却边界模糊的知识体系,涵盖从日常经验到专业认知的多个层面;躯体标记则建立在丰富的生命经验和情绪记忆基础之上,涉及对多种生理、心理状态的综合感知,异常复杂。因此,形式化编码不可能覆盖所有常识以及躯体标记,这导致智能体存在着认知盲区。其次,常识和躯体标记具有时空差异性。常识并非静态的知识系统,而是嵌入特定历史、文化与社会语境之中的生成性知识;躯体标记在很大程度上依赖个体生命历程中积累的生理经验。如果编码更新滞后或成本过高,智能体将难以适应快速变化的环境,从而引发错误或低效的行为。最后,部分常识和躯体标记无法被编码。人类的许多常识以意会知识的形式存在,它们虽然可以被人类本能地理解并应用,但难以通过符号化的方式进行清晰的表达;躯体标记所具有的情绪性、模糊性和情境性特征也限制了其完全被形式化表达的可能性。此外,人群学习路径是一种基于集体经验和互动反馈来构建世界模型和躯体标记的预装路径,主要依赖于大规模的数据采集、集体行为观察和社会互动学习。此路径虽然在某种程度上能够规避编码嵌入路径的滞后性等局限,但仍面临着挑战:第一,学习效率低下。智能体学习丰富的人群数据需耗费大量的时间成本,并且难以避免数据噪声、数据偏见、数据错误的干扰;第二,某些知识难以习得,如人类行为背后的因果关系等。

即便上述预装路径所面临的困境能够被突破,实现“身体”智能仍将面临一个相当棘手的问题:现有的编码嵌入和人群学习路径普遍预设可将人类的世界模型和躯体标记直接复制到机器人的“身体”上,然而,世界模型和躯体标记本质上是个体基于自身身体与环境交互而生成的认知体系及推理机制。由于机器人“身体”与人类身体存在着无限性与有限性、可变性与固定性等差异,在预装过程中,世界模型和躯体标记不能简单照搬,而应进行适应性调整。机器人“身体”是可变形、可拆卸、可替换的,因而机器人的世界模型必须具备跨形态适应能力和认知连续性机制,其数据存储和计算架构应趋向模块化设计,以支持“身体”部件的灵活更换。此外,还应构建一种基于机器人自身动作能力和环境适应性的“机器躯体标记”系统,以能量消耗、运动精度、稳定性等参数替代人类的诸种躯体感受和情绪反应。

除世界模型和躯体标记外,具身智能的“身体”预装还应重点考虑“身体”的形状、大小、材质及重量。这些因素的变化影响着具身智能的感知能力、运动能力、交互能力,从功能主义和实用主义的角度来看,这些“身体”因素应服务于具身智能的任务需求和生存环境。在许多情况下,模仿人形并非最佳选择。我们或许可以从大自然中获得启发:不同物种在进化过程中形成了不同的形态,产生了不同的智能,因而具身智能不必局限于人形,应在多样化的形态中寻找最优的感知和行动方式,以实现更高效的智能。例如,在工业领域,应优化具身智能的刚性结构以提升负载能力,并采用多关节机械臂形态以增强操作灵活性和自由度;在救援领域,机器人的柔性结构与变形能力尤为关键,高机动性的多足设计可提升其对复杂地形的适应能力;在社交领域,可考虑为机器人设计类人形态、拟人表情,尤其是可爱的外观、柔和的声音,从而加强人机互动和减少用户的恐惧感。

三、“身体”与大模型的融合

世界模型和躯体标记的“身体”预装赋予了具身智能一定的“身体”智能,但要想让机器人实现更高层次的智能,还需聚焦于机器人“身体”与大模型的融合。与世界模型相比,大模型具备两个方面的优势:一是世界模型通过模拟环境动态来表征现实世界的物理规律,而大模型则具有高级语义推理能力和跨领域知识整合能力;二是世界模型擅长短期状态预测,而大模型在长时序任务规划和策略推演上更具优势。不过,这并非说大模型可以完全取代世界模型或躯体标记,如“身体”可以通过躯体标记的方式自带基础智能,从而有效弥补大模型计算智能的不足。因此,要充分认识“身体”与大模型在不同方面的互补性,据此提升具身智能的整体智能水平。

那么,“身体”与大模型的融合究竟意味着什么?必须明确的是,融合并非简单拼凑,而是强调整体性,目的是导向具身认知。换言之,融合并不意味着“身体”与大模型的功能叠加,而是二者在智能架构方面的深度协同。当二者功能叠加时会导致静态规划与动态执行的割裂,这是因为大模型仅能够提供静态的任务规划,而“身体”在执行时无法灵活调整策略,导致智能体无法适应环境的变化。而当“身体”与大模型深度协同时,“身体”能够通过世界模型预测环境的变化并即时反馈给大模型,大模型也能实时调整任务目标。如此一来,“身体”与大模型相互依赖,形成“感知—推理—决策—执行”的闭环系统,从而显著提升具身智能在开放环境中的任务适应性、鲁棒性及跨模态泛化能力。

罗纳德·克里斯利和汤姆·齐姆克将具身性标准分为四个层次,从宽松到严格依次为:(1)物理实现(Physical Realization),具身系统只需依托于某种物理机制即可;(2)物理具身(Physical Embodiment),具身系统必须在一个连贯且整体的物理结构中实现;(3)有机状具身(Organismoid Embodiment),具身系统的局部物理实现应当在形态或感知—运动能力方面与自然生物的身体共享某些(可能是表层的)特征,但并不要求其在任何意义上是有生命的;(4)有机体具身(Organismal Embodiment),具身智能的“身体”不仅是类生物的,还必须是有生命的、真正的生物体。照此标准,物理实现更多属于一种离身智能,而物理具身仅是“身体”与大模型的简单拼凑,属于形式上的具身智能,其并不具备具身认知,未涉及到融合的本质,只有实现有机状具身才可称得上是“身体”与大模型的融合。

但是,就现阶段而言,“身体”与大模型的融合仍面临着诸多挑战。首先,大模型依赖机器学习方法进行训练,然而目前的机器学习方法难以直接应用于机器人,存在泛化能力不足、适应性欠缺、主动探索能力薄弱、忽视长时段交互的潜在影响等问题。因此,大模型或许难以从根本上与机器人“身体”实现真正的深度融合。其次,在未来“身体”与大模型的融合可能不再是“一对一”的固定关系,而是“一对多”的模式:同一大模型可以适配不同的“身体”,而同一“身体”可搭载不同的大模型。这反映了一种迈向通用人工智能的趋势,虽然这一趋势可能带来技术的突破,但仍需时刻对其保持警惕。从技术层面来看,这一趋势面临跨平台适配与对齐问题,不同机器人“身体”的传感器类型、效应器驱动方式等存在差异,随意更换大模型或机器人“身体”可能导致控制失稳,甚至完全失效,从而引发安全风险。从伦理层面来看,这一趋势使潜在责任主体的数量大幅增加,一旦发生事故,将难以厘清并合理划分事故责任。同时,“身体”与大模型之间“一对多”的关系意味着不同平台之间需要共享数据,这极有可能造成隐私的泄露和数据的滥用,进一步加剧伦理和法律风险。最后,“身体”与大模型具有边界不一致性,大模型通常依赖云端计算并基于全局数据进行推理,而“身体”则主要是本地实体,用于感知并响应局部环境。当网络状况受限或计算资源不足时,这种架构差异可能导致信息滞后、决策偏差,甚至增加系统被恶意篡改的风险,从而对具身智能的稳定性和安全性构成威胁。

四、AI机器人的具身赋能

经过“身体”预装以及“身体”与大模型的融合,具身智能有望得以实现。目前学界以“身体”为标准,认为智能包含离身向度和具身向度,人类智能便是这二者的统一体。那么,在具身智能中,具身向度究竟赋予了AI机器人哪些关键能力?综合学界的讨论,可以发现“身体”主要赋予了具身智能以下四大核心能力:感知能力、空间能力、交互能力和情感能力。

感知能力即具身智能通过“身体”感官获取并理解环境信息的能力,AI机器人可通过视觉、听觉、嗅觉、力觉等多模态传感器主动感知外部物理世界,并将感知信息转化为可用于推理和决策的认知表征。“身体”可以提供直接的感知通道,通过动作与反馈之间的循环使感知具有能动性和动态性,实现从被动接收向主动探测的转变,能够极大提升AI机器人的环境适应性以及任务执行精度。例如,达芬奇手术机器人依靠高精度摄像头和力反馈系统,能够辅助外科医生完成微创手术,极大提高手术精度。相比之下,智身智能主要依赖大规模数据训练和离线推理,其感知方式往往是静态的、间接的,难以完全模拟物理世界的复杂性和实时变化。

空间能力即具身智能识别物理空间、控制“身体”姿态并实现空间运动的能力,具体涵盖路径规划、障碍躲避、目标定位、物体操作等方面,这些能力使AI机器人能够在三维空间中高效执行任务。AI机器人的空间认知依赖其“身体”的空间体验并基于此构建空间模型,同时通过“身体”控制实现空间运动和操作。总体而言,空间能力为AI机器人自主导航和路径优化赋能,使其能够预测空间可行性并动态调整路径。例如,自动驾驶机器人使用计算机视觉、激光雷达和地图数据,能够预测其他车辆、行人和障碍物的运动轨迹并进行规避。同时,它还能在不同城市、天气、路况下进行道路识别,实时调整路径规划,灵活适应驾驶规则。

交互能力即具身智能通过“身体”与环境、其它智能体以及人类进行多模态交流的能力,涵盖语言交流、“身体”姿态、触觉反馈、环境感知以及社交行为等方面。“身体”之所以对机器人的交互能力至关重要,是因为交互包含各种非语言因素,需要通过“身体”进行展示和传递。换言之,“身体”能够提供许多额外信息,使交互更加自然、深入。此外,交互能力对于具身智能的重要之处在于,其能够使智能体之间、人机之间的协作更加流畅和高效。例如,软银Pepper机器人能够识别他者的面部表情和语音情绪,并动态调整自身语调和肢体语言,以便进行更自然的社交互动。在日本,Mizuho银行使用Pepper机器人作为接待助手,为客户导航和办理业务。

情感能力即识别、表达和响应情感的能力,它不仅源于认知计算,还高度依赖具身体验。身体状态是情感的重要影响因素,如身体疲劳时更容易感到愤怒和烦躁。此外,在情感智能中联想能力至关重要。当一个人感受到轻微的触摸时,他的联想中心便会根据经验进行推断:如果联想到的是伴侣在挠痒痒,便会产生愉悦和亲密之感;如果联想到的是蜘蛛在爬,便会产生恐惧或厌恶情绪。这种情感归因的联想过程,是人类基于经验、情境、记忆和身体感知的高度复杂的认知活动。然而,对于具身智能而言,如何实现类似的联想能力仍是一个重大挑战。人类的联想方式受到文化背景、个性化经历、社会环境的深刻影响,但具身智能缺乏真正的个性化体验和长期情感记忆,无法真正建立像人类一样的联想记忆库。如今,情感能力能够提升具身智能在老年护理、心理疏导、儿童陪伴、人机恋爱等方面的互动质量和用户体验,潜在的应用价值巨大。因此,在未来应引导情感智能的发展朝着健康、安全、负责任的方向推进,从而使具身智能真正成为人类社会的可靠助手和温暖陪伴者。