具身智能的哲学反思②|闫宏秀、宋胜男:基于“认知—语言—价值”三重对齐的具身智能构建
近期,大模型和人形机器人备受社会各界关注,很多人在思考:如何让二者有效“融合”切实推动具身智能的发展?顾名思义,具身智能是具有“身体”的人工智能。具身智能为大模型的应用提供了更广阔的平台,使之从“赛博空间”走向物理世界;具身智能让机器人变得更“聪明”,与人类的交流更为顺畅。具身智能的发展给哲学反思带来不少挑战,本组笔谈聚焦具身智能的定义、本质特征、类型和实现的可能性等基本理论问题,以期推动该领域研究的进一步发展。闫宏秀、宋胜男认为,具身智能面临认知偏差、语义鸿沟和价值判断三大对齐难题,可通过“认知—语言—价值”三重对齐框架及世界模型、语义扎根、伦理准则具身化等具体方法,积极探索构建协同、可信的具身智能系统,推进人机深度协作。
本系列文章原刊《福建论坛(人文社会科学版)》2025年第4期,澎湃新闻经授权转载。
【摘要】具身智能发展面临的对齐难题制约了人机协作的可能性。其中,由物理世界引发的认知偏差、由人机语言隔阂引发的语义奠基问题、由人机存在差异引发的价值对齐挑战是具身智能对齐难题的三大表征。从“认知—语言—价值”三重对齐框架来看,我们通过世界模型和因果推理构建智能体对物理规律的常识性理解,可为智能体的行动提供可靠的认知理论体系;借助语义扎根与意图理解,寻找自然语言处理的更好迭代,有助于实现更通畅的人机语言互译,可为智能体打通语义方面的人机协作通道;通过伦理准则具身化、伦理指令客观化等方式,可有效促使具身智能的行动符合以人为本、技术向善的终极伦理指南。
一般而言,对齐可与价值对齐等同。这是因为从技术价值论来看,价值对齐直接体现了对齐的核心目标,即确保人工智能系统的行为与人类的价值观、意图和利益保持一致;而从狭义的技术研究视角来看,“在人工智能系统生命周期中的对齐保证,包括安全评估、可解释性和人类价值契合性验证”,即价值对齐可被视为对齐的一种。不过,具身智能的对齐比这种一般意义上的对齐有更繁杂和特殊的含义。与传统人工智能不同,具身智能重在利用“身体”与“智能”的有效融合,从而感知环境和理解世界。这种融合实际上就是力图将多方要素对齐。易言之,具身智能需要实现从初步认知物理规律到深入理解人类概念、从计算机语言和人类语言的隔阂到无障碍沟通、从人机差异难题到智能体与物理交互意图相一致等多个维度的对齐。因此,具身智能对齐不仅指的是价值对齐,同时也指具身智能之“智能”所包含的认知、语言方面的对齐。基于“认知—语言—价值”的对齐框架,进而实现具身智能“身体”与“智能”的协同,最终实现整体性对齐,这是构建可信任的协同具身智能的有效路径。
一、具身智能对齐难题
在具身智能的进一步发展中,当“通过数据向机器人传授物理定律是阻碍机器人在日常生活中广泛应用的直接障碍”时,采用基于“身体”的方式代替传统的数据训练将成为一种重要的路径。随着具身智能技术不断向工业制造场景和服务业场景的延伸,“身体”的重要性日益凸显。为避免具身智能技术在与人类协作过程中因“身体”在物理环境中的操作失误而对人类造成伤害,就必须确保具身智能对齐,而对具身智能对齐难题的考察恰恰是实现上述对齐的必要条件。具体而言,这种考察可以以难题的缘起与表征为切入点。
(一)由物理世界复杂性引发的认知偏差
在人工智能领域,对物理世界运动规律的精准把握一直是研究者们追求的目标。而在具身智能领域中,作为这种追求更深刻的反映,研究者们在感知技术、数据处理与分析、算法与控制、交互与适应等方面表现出迫切的理论和技术需求。与此同时,由于具身的特殊性,人工智能体对物理世界运动规律的理解变得比以往更加重要。以往人工智能的理解错误只表现为文本或者视频产生的逻辑矛盾和规律混淆,并不会导致严重后果,但是我们对具身智能的要求却不能有丝毫怠慢。具身智能体需要在真实的物理环境中完成动作,稍微的认知偏差都可能危及人类的生命和财产,如机械臂的抓取失误造成物件损坏、运输机器人失控碰撞行人、具身穿戴式设备产生异常动作从而直接造成人体损伤等。这类错误如果不能及时修复,还会对人机交互的基础信任环境造成破坏。为了避免严重后果,“将工人从危险的工作环境中解放出来,转而安排他们从事更安全、更具战略意义的工作;让工人远离高风险工作,转而担任监督岗位来提高生产力”,但这只是对技术脆弱性的补充和修正,并没有消除症结。因为此种认知偏差主要源于人工智能对人类的模拟尚有缺陷。
自人工智能概念诞生以来,模拟人类大脑的实验探索便从未停止。像人类那样通过对世界的持续观察进行归纳和演绎,并且通过概念进行交流和思考,仍然是人工智能的发展方向,但现有的具身人工智侧重于从模仿人类行为的角度出发,忽视了思维的非逻辑性和感性特质。在未来,具身智能体的应用场景将扩展至家庭服务、工业制造、医疗养护、教育娱乐和公共服务等领域,这意味着具身智能与人类的交互程度将会逐步加深。因此,具身智能的研究会更加注重具身智能与环境的互动,以及“身体”在认知过程中的作用,这也意味着具身智能终将超越以人类经验和认知学习为中心的模拟方法,实现新的人类认知模拟系统。
(二)由人机语言隔阂引发的语义奠基问题
语言是认知过程中不可或缺的要素,它使具身智能在理解的基础上推动“身体”去执行复杂的任务,与人类进行有效的互动。然而,从认知科学的角度来看,人们对于自身所处世界的常识性概念描述与计算机所掌握的语言概念之间很难取得一致。这种不一致在具身智能领域尤为突出,具身智能模拟人类通过“身体”进行认知的方式存在明显的概念互通问题,这又对深度学习等技术过程产生影响,因此,人类语言与机器语言的交互也存在不可避免的理解问题。
在ChatGPT出现以前,“学术界和工业界普遍认为,在感知智能和创作智能之间,还需要经过认知智能和决策(预测)智能的发展阶段”。然而,技术的高速进展使得大语言模型的能力取得了跨越式进步。例如,Sora的推出实现了“在未显式引入现实世界物理定律的基础上,仅通过在大量数据上的学习,就实现了对现实世界物理现象的模拟和仿真,进一步拉近了虚拟和现实之间的距离”。从当前的技术发展态势来看,大语言模型已经具备了生成声音、图像、文字、视频等多种模态作品的能力。但若深究的话,大语言模型实际上对人的指令的理解程度很有限,并且时常会给出与人类期望相差较大的答案,甚至在一些简单的问题理解上也有较大偏差。所以,这类使用场景就要求使用者具有能够发出使大语言模型更加读得懂的指令的能力,进而增加了使用门槛。事实上,大语言模型主要是依赖海量数据的训练来模拟人类的表达与产出,而非真正参透人类语言的内在逻辑、语义情境及文化内涵,即仅仅是基于数据规律的机械模仿。在具身智能领域中,由于大语言模型的嵌入和更加专门化、场景化的具身智能应用,这一局限性将会更加明显。
(三)由人机存在差异引发的价值对齐挑战
在概念、语言和认知交互的基础之上,我们会要求具身智能的价值判断与人类一致,并且能够在实际行动中切实体现这些价值判断。“数字计算机能否向我们作出关于人心的正确描述?”这一关键性问题直击计算机与人类之间的本质差异,即心脑构造的基质差异。毫无疑问,在当下,凭借数据驱动,计算机确实能够在很大程度上模拟人类的智能行为,如精准地完成各类复杂任务、对信息进行快速处理等。然而,由电子元件、芯片等构成的计算机与由血肉、神经元等组成的人类截然不同。计算机若要与人类实现真正意义上的协作,必须能够精准地识别并理解人类内心的真实意图,并且在价值观层面与人类达成一致,这是具身智能建立人机信任的重要基础。
为具身智能系统制定一套普遍且通用的价值规范存在较大挑战。一方面,价值观是复杂且多维的,无法用清单的方式针对不同的场景和问题向机器逐一列明和展现。另一方面,“对我们的终极目标识别和编码都非常困难,因为人类目标的表现形式非常复杂”。显然,用数据训练的方式要求计算机理解人类语言中的幸福、道德、责任等概念在技术实现上有很大局限。大量的数据实例只是让计算机习得解决模式,而非理解语言,行动目的的达成并不代表行动逻辑的一致和理解的实现。
二、具身智能对齐的“认知—语言—价值”三重框架
人机在认知、语言和价值判断上的本质差异将影响最终的整体性对齐。“具身”意味着“感知与运动(motor)过程、知觉与行动本质上在活生生的(lived)认知中是不可分离的”。这种不可分离需要高度的统一与协同。不难发现,“认知—语言—价值”恰恰是蕴藏在其“身体”背后的核心框架。
(一)认知对齐:从行为模仿到概念理解的有效转换
从人工智能的发展史来看,抽象符号如何通过物理交互转变为真实语义,一直是人工智能研究需要攻克的核心问题。由于具身智能的突破性进展,这个曾经象征着质性跨越(从外在模仿到内在理解)的难题或许在不久的将来不再困扰研究者。正如波士顿动力的Atlas机器人通过28个自由度(新版本的Atlas机器人的自由度数据未公开)的动态平衡获得空间认知,特斯拉的Optimus在操作物体时建构物理直觉,此类技术突破印证了梅洛-庞蒂的知觉现象学论断——认知是“身体”投射到环境中的具身化实践——正是解题的正确思路。不过,计算机系统对生物认知的模拟仍面临本质上的局限。现有的具身认知研究一方面关注“身体”的感知和“身体”在运动过程中与世界的交互,另一方面凭借深度学习的技术使用多层神经网络来模拟人类大脑的思维过程,这看似双管齐下、相得益彰,实际上使“身体”与“大脑”的协同或者说模块整合变得比以往更加复杂了。可以说,相关的研究越深入,所呈现的机器与碳基生物的差别就越明显。从技术路径来看,要使计算机系统与心智相连,似乎只能通过创新和强化算法从而加强概念的关联与调节来实现,但由“暴力计算”构建的超强智能认知模式很可能更难以对齐人类的认知模式。
(二)语言对齐:从语言形式到语义表达的有效切换
在具身智能的发展中,语言对齐是实现跨模态交互的关键挑战之一。良好的语言能力是智能的标志,因而从语义的有效切换到无缝对接是具身智能未来发展的目标之一。生成式大语言模型的突破性进展引发了我们对机器“语言掌握”的重新审视。“在人机对话过程中,大语言模型通过识别人类主体的意图来回应人类对话者,这也是人机成功沟通的关键。”从约翰·塞尔提出的“强人工智能”的视角看,大语言模型的开放域对话能力表明其初步具备了意图识别和心理状态的推理能力。但是,具身智能在语言理解方面不能仅仅停留在文本交互的层面。在真实的物理场景中,自然语言需要准确地转化为具体的动作指令,这对我们完成不同模态间的语义对齐任务提出了更高的要求。毕竟,计算机语言与人类自然语言存在异构性,其表现为:一方面,从自然语言到动作指令的转换需要解决人类语义的模糊性问题;另一方面,通过传感器接收到的多模态语言表征需要进一步协同。人类语言通过文化语境构建意义,而计算机语言依赖形式化逻辑系统进行表征。因此,实现计算机语言与人类自然语言对齐的关键在于确保大语言模型的输出符合人类的期望和价值观。当前计算机的“反馈—强化”机制是帮助计算机不断习得人类偏好设置的有效途径,该机制在最终决策上似乎可以做到无限接近,但为了适应更开放、更随机的场景,更为重要的是在指令输入的阶段能找到使计算机语言与人类自然语言对齐的有效方法。
(三)价值对齐:从纯智能体到物理交互的有效设计
安全可信的具身智能构建必须考虑其负面效应。“对技术的负面效应进行技术防范、控制以及制度层面的规约,只能解决表层问题,更为深层的解决方案则在于价值观的转换。”针对上述对齐难题及其表征,具身智能的价值对齐需在认知和语言对齐的基础上,打通更高层级的对齐通路。因此,必须基于具身智能对齐难题与“认知—语言—价值”三重对齐框架的关联性(见表1)构建三位一体的对齐框架。

表1
具身智能通常要面对大量物理介入的场景。在诸如使用机械臂、辅助人体增强功能的穿戴设备等类型的简单使用场景中,具身智能的设计被要求以人类生命安全为宗旨,形成设计的硬约束。而在更复杂的应用场景中,来自人类反馈的强化学习(RLHF)技术展示出极大潜力。“反馈是为了使人工智能系统与人类意图相符而提供给人工智能系统的信息”,系统通过大量的使用反馈进行反向推理,从而调整策略,修正具身智能体的行为,使其逐渐接近人类的价值行为模式并从行为结果上倒推出应该遵循的人类价值规范。在这一过程中,人类也应该相应地树立正确的价值观念,并且梳理自己的价值指令,提供给人工智能可靠的价值选择与判断指南。如果把具身智能的价值对齐作为一项框架性任务的话,认知对齐和语言对齐应该作为能够使具身智能体与人类之间实现顺畅语言交互与意图理解的基础对齐层级;而价值对齐作为顶层约束层级,确保具身智能体在深层的伦理和道德层面与人类保持一致,从而在复杂开放的环境中做出符合人类利益和价值的决策。
三、基于协同视角破解具身智能的对齐难题
具身智能在认知、语言和价值层面与人类的差异使得单向的对象化处理方式和单一的技术化处理方式都难以满足我们的对齐需求。若想确保具身智能在认知层面精准地理解世界、在语言层面与人类有效沟通、在价值层面符合人类的利益和伦理准则,我们就必须基于协同视角破解对齐难题。
(一)促进协同秩序的进化发展
具身智能的产生意味着人工智能认识世界的范式发生了变化。首先,不同类型的智能对象与日俱增。例如,智能体(Agent)、具身智能(Embodied Artificial Intelligence,EAI)、大语言模型(Large Language Models,LLM)等已经相继出现。其次,不同智能之间的交互形式变得越发复杂,人工智能与人类的交互方式呈现出多模态(Multimodal)、具身化(Embodied)、嵌入式等新的特点。最后,由于智能对象和交互环境的多样性,以及协同经验的缺乏,研究合作的局限性问题日渐凸显。
“自然界万事万物通过‘自组织’(Self-organizing)合作,产生协同秩序效果”,具身智能的研究必然也会经历从无序走向有序的过程。目前具身智能发展正处于大胆探索期,无序现象在所难免,此时的协同并非多方能力的简单叠加,而是具有“多方协作、系统运行和整体高效”等特征的合作。这种合作基于智能对象不断增多和智能交互复杂度增加所提出的方案,需要主体间紧密的协调与配合,在训练过程中不断根据整体的情况对各部分进行克制与增强。通过理论与系统、系统与环境、人类与机器、感知与决策、决策与执行、伦理与责任、多模态呈现等多方面的协同,我们可以预见具身智能的研究最终会走向有序和可靠。
(二)确保可信任的人机协同
具身智能通过“身体”进行感知,为人工智能的发展带来了新的范式可能,促使研究者在人与人工智能的合作方式上作出改变。具身智能的传感系统、控制系统等成为人们理解世界的新的工具,具身智能通过“身体”形成的认知方式为人们改进自身的认知方式提供了某种参照。由于人与机器的构成基质不同,具身智能获得关于世界的认知在某些方面要远超人类,今后的具身智能不再被人们视为简单工具,而是能够与人类共同协作、各取所长的合作伙伴。
为了避免具身智能在人机合作中对人类造成伤害,研究者需要加强具身智能的操作可信度。“可信任人工智能的构建发端于人对技术伦理旨趣的审度,可信任的存在逻辑在于人工智能创建了基于任务和基于目标信任得以产生的可能条件,并在与人类的交互之中呈现出某种关联性的信任。”具身智能在达成人类目标的过程中必须适应其“身体”带来的新的合作方式和对齐要求,以避免对人类产生实体侵害和伦理侵害。因此,人类对具身智能提出可信的需求是协同运作的必然保证。不过,可以预见的是,在具身智能快速发展的过程中,我们不得不面对一个问题:如何在系统的脆弱性与目标对齐之间找到平衡,实现有效的人机协同,构建可信任的具身智能系统?这个问题的答案很可能与世界模型有关。
(三)重视世界模型的模拟机制
相较于抽象的算法主义,具身智能的技术路线呈现出更加鲜明的实在论特征,其发展需要物理“身体”随着周边环境的变化而实现动态耦合,如机械臂的触觉反应等,而非将智能化简化为脱离现实载体的纯算法逻辑。这种具身实在论导向的技术路线,本质上是对传统人工智能封闭训练环境的变革,即通过多模态的感知,从局部模块化协作走向系统的人机协同。
在这一过程中,世界模型(World Model)提供给具身智能较好的虚拟现实条件,帮助具身智能获得对真实世界的理解。“世界模型”最早由何大卫(DavidHa)和尤尔根·施密德胡伯(Jürgen Schmidhuber)提出,但他们并未明确“世界模型”的具体含义。一般认为,“世界模型可以被理解为心智模型的一个计算实例,这是一个借用自认知心理学的概念。心智模型是一个关于世界动态的预测模型,也就是说,是我们基于自身感知所建立的一种抽象表征”。易言之,它通过内部表征来预测环境的动态变化,从而帮助AI系统在复杂环境中进行决策和规划。这一概念逐渐在具身智能领域获得重视,可以帮助具身智能在虚拟环境中学习,并将学到的知识运用于现实世界,完成虚拟空间训练与实际环境操作的顺畅切换。如果说,推理、预测以及快速反应是生物在长期进化过程中逐渐发展出来的关键能力的话,那么世界模型就为具身智能系统提供了具备这种能力的可能。同时,具身智能在掌握这种能力的基础上利用技术优势突破人类感官的生理局限,可以对世界的抽象规律作出更好的推理和预测,最终代替人类进行判断和决策,实现从真实环境学习到虚拟环境训练再到真实环境操作的跨空间协同的一系列进化。”