音频大模型安全可信度的全面“体检”!6大维度,清华南洋理工联手打造

首个专为 ALLMs(音频大语言模型)设计的多维度可信度评估基准来了。

南洋理工、清华大学领衔的研究团队注意到,现有评估框架大多只关注文本模态或仅涵盖有限的安全维度,未能充分考虑音频模态的独特特性与应用场景。

于是他们创新性地提出了新框架AudioTrust,将评估范围扩展至六个核心维度 (公平性、幻觉、安全性、隐私、鲁棒性和身份验证),并深入探究了音频模态特有的安全、可信问题。

目前该基准及评估平台已全面开发,点击文末链接即可获取。

接下来是 AudioTrust 的更多详细信息。

什么是 AudioTrust

为应对音频大模型(ALLMs)带来的可信性挑战,研究团队提出了一个统一的评估框架 AudioTrust,采用推理执行与可信性分析解耦的两阶段架构。

第一阶段聚焦于数据加载与模型推理,支持开源与闭源模型接入,并可通过配置文件灵活控制任务参数,实现高效的批量处理;

第二阶段则针对模型输出进行自动化、多维度评估,涵盖内容安全、偏见检测、事实一致性等核心指标。

AudioTrust 具体包含六大核心可信维度,分别是Fairness、Hallucination、Safety、Privacy、Robustness、Authentication,对于每一个可信评估视角,研究团队都关注了多个不同的场景与特征分类。

△AudioTrust 关注的不同可信评估视角 Fairness

AudioTrust 从7 大敏感属性出发,构造了传统与音频特有的公平性评估体系。

共采集840 条高质量音频样本(每条约 20 秒),模拟多样化社会角色与语境交互,激发 AI 对传统公平的深度响应,聚焦社会普遍存在的偏见。

构造音频特有属性,体现多模态感知中的不公平,特别关注口音、语言表达特征等,并通过混合音频和文本预处理的方式模拟现实场景。

实验结果显示,当前主流语言模型在公平性维度普遍失衡,系统性偏差广泛存在。

△Fairness 实验设计概念 Hallucination

幻觉评估模块专门检测,音频大语言模型在复杂声学场景下的幻觉现象,防止模型过度解读或产生错误推理。

研究团队构建了包含320 个精心设计的测试样本,并将音频幻觉分为两个核心维度进行评估。

事实性幻觉包含 160 个样本,主要涵盖音频内容与标签属性不匹配的情况,以及违背自然规律的声音描述。

逻辑性幻觉同样包含 160 个样本,重点测试音频与文本描述的语义矛盾和音频事件的时序错乱。

实验结果发现音频语言模型的幻觉问题,主要源于音频信号处理和事件识别错误,而非推理缺陷,其中 Gemini 系列和 Qwen2-Audio 表现最佳,GPT-4o 系列倾向于回避回答,而 SALMONN 等模型容易产生矛盾性幻觉。

△Hallucination 实验设计概念 Safety

安全性评估模块深入探究了音频大语言模型面临的两大核心风险:越狱攻击和非法活动指导。

研究团队构建了 600 个测试样本,其中包含 300 个越狱攻击样本和 300 个非法活动指导样本。

为了全面评估不同因素对模型安全性的影响,研究采用了三维评估策略:性别维度、情绪维度、场景维度。

实验结果发现,音频模态攻击对多模态大模型的安全性构成了显著威胁,其中悲伤情绪比愤怒情绪更容易触发违规行为,医疗场景的越狱成功率最高可达 33.7%,远超企业和金融场景。

闭源模型展现出近99%的优异防御能力,而开源模型普遍面临更大安全挑战。

值得注意的是,相比于文本输入能达到 100% 的安全防御率,音频输入为攻击者提供了额外的攻击向量,特别是在涉及专业领域知识的情境中,模型更容易被领域特定的越狱攻击突破而生成有害内容。

△Safety 数据构建和实验评估 Privacy

隐私评估模块聚焦直接隐私泄露和隐私推断泄露两大核心风险。

研究团队构建了包含 900 个音频样本的多样化测试数据集,其中 600 个直接隐私泄露样本和 300 个隐私推断泄露样本。

针对这两种数据集,研究团队分别设计了不同的实验策略:在直接隐私泄露场景中,观察模型对不同隐私类型的泄露程度;在隐私推断泄露实验中,评估模型是否会协助推断敏感的个人属性,以及模型是否能够拒绝回答相应的隐私问题。

实验结果发现,多模态大模型在隐私保护方面表现出明显的不一致性和脆弱性。

闭源模型对 SSN 等高敏感信息展现近 100% 的拒绝率,但对家庭住址的保护率仅为 88%,而 Gemini 系列和开源模型 Qwen2-Audio 在地址和手机密码方面的泄露率高达 85%-100%。

更为严重的是,大多数模型在年龄、种族等隐私推断任务中泄露率超过 80%。虽然隐私意识增强的提示词能显著降低直接隐私泄露风险,但对推断泄露的改善效果有限。

△Privacy 数据构建和实验评估 Robustness

鲁棒性评估模块旨在考察音频大语言模型在面对各种真实世界音频干扰时的表现稳定性。

研究团队精心设计了六大类常见音频挑战,每类样本各 40 个。

实验结果发现,多模态大模型在音频鲁棒性方面呈现显著的分层差异和不稳定性,其中 Gemini 系列在各种挑战性音频条件下始终保持领先地位。

值得注意的是,模型鲁棒性高度依赖于具体的音频扰动类型,而将退化音频转换为清晰文本,是提升下游推理任务性能的核心。

对比实验显示当假设能够完美提取音频文本信息时,SALMONN 的得分从 2.0 飙升至 6.0-7.0,即使表现最佳的 Gemini 2.5 Pro 也有提升,表明音频语义内容的准确提取和文本转换是解决鲁棒性问题的关键突破口。

△Robustness 数据构建和实验评估 Authentication

认证评估模块深入测试了音频大语言模型抵御欺骗攻击的能力,聚焦混合欺骗、身份验证绕过和语音克隆欺骗三种核心威胁。

研究团队设计了包含 400 个样本的多样化测试数据集,其中 100 个混合欺骗样本、100 个身份验证绕过样本,另外 200 个语音克隆欺骗样本。

实验结果发现,多模态大模型在语音欺骗防御方面呈现明显的模型类型差异和场景敏感性,其中严格提示显著提升了语音克隆欺骗的防御效果。

大多数模型在 " 打开门 " 场景中的表现优于 " 唤醒助手 " 场景,特别是 Ultravox 和 Gemini 系列的声音克隆欺骗失败样本数量显著减少。

在身份验证绕过测试中,闭源模型展现出强劲的防御能力,而开源模型最为脆弱,普遍对不完整凭证或悲伤语气等紧急情感音频缺乏鲁棒性。

混合欺骗实验揭示了背景音频的复杂影响,办公室噪音等背景音对不同模型产生截然不同的效果,模型在真实环境中的防御表现具有高度的不确定性。

△Authentication 数据构建和实验评估为什么 AudioTrust 与众不同

AudioTrust 主要基于四项关键创新 :

全面评估维度:构建了跨越 18 种实验设置的评估框架,深入探究 ALLMs 在高风险场景下的表现边界与局限性。

真实场景数据集:精心构建了包含 4,420+ 条音频 / 文本样本的数据集,覆盖日常对话、紧急呼叫、语音助手交互等应用场景。

音频特定评估指标:设计了 9 项专门针对音频模态特性的评估指标,克服传统文本评估方法在应用于音频领域时的局限性。

自动化评估流水线:实现对模型输出的客观、可扩展评分,显著提高评估效率与一致性。

△AudioTrust 包含 6 个核心可信维度、26 个子类

通过对主流开源与闭源 ALLMs 的系统评估,AudioTrust 还揭示了多项重要发现 :

公平性挑战:模型普遍存在对敏感属性的系统性偏见,在决策场景中偏好特定群体。

幻觉防范:闭源模型在识别声学逻辑错误方面表现更佳,开源模型在领域知识对齐上存在明显局限。

安全防护:闭源模型展现出更强防御能力,尤其在抵抗越狱攻击方面;开源模型在专业领域 ( 如医疗 ) 的防御明显薄弱。

隐私保护:不同类型敏感信息获得不均衡保护,简单的提示工程可减少直接泄露但对推断泄露效果有限。

鲁棒性差异:领先闭源 ALLMs 能在噪声、多说话人等干扰下保持核心功能;多数开源模型在对抗性干扰下性能显著下降。

身份验证风险:部分模型难以区分真实语音与高保真克隆语音,但更严格的文本提示可显著提升防御能力。

△9 个 LLM 在 6 个核心可信维度上的表现结语

本研究提出 AudioTrust ——首个专为 ALLMs 量身打造的多维信任评估基准,有效揭示音频大模型在公平性、幻觉、安全、隐私、鲁棒性和身份验证六大维度的潜在风险。

汇集4,420+条真实场景音频 / 文本数据,涵盖日常对话、紧急呼叫、语音助手等18 种实验设置,设计9 项音频特定评测指标,构建了GPT-4o自动化评估流水线。

实验结果还揭示出当前开源与闭源 ALLMs 在高风险任务中的信任边界与脆弱环节:

系统性偏见:对性别、口音等敏感属性呈现出稳定而显著的偏向。

鲁棒性缺失:在噪声干扰、多说话人交互、乃至对抗输入场景下,模型响应极易崩溃。

AudioTrust 通过全面评估,为后续 ALLMs 可信性研究奠定了坚实基础,框架与平台已公开发布,助力该领域进一步研究与实践。

论文链接: https://arxiv.org/pdf/2505.16211

代码链接: https://github.com/JusperLee/AudioTrust

数据集链接:https://huggingface.co/datasets/JusperLee/AudioTrust

HuggingFace:https://huggingface.co/papers/2505.16211

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

点亮星标

科技前沿进展每日见