南亚语言的暗礁：当AI安全防线在低资源语种中悄然失守

2026-02-20 · 1 次浏览 ·来源: AI导航站

arXiv:2602.16832v1 Announce Type: new Abstract: Safety alignment of large language models (LLMs) is mostly evaluated in English and contract-bound, leaving multilingual vulnerabilities understudied. We introduce \textbf{Indic Jailbreak Robustness (IJR)}, a judge-free benchmark for adversarial safety across 12 Indic and South Asian languages (2.1 Billion speakers), covering 45216 prompts in JSON (contract-bound) and Free (naturalistic) tracks. IJR reveals three patterns....

在人工智能安全领域，一场无声的危机正在低资源语言中蔓延。长期以来，主流大模型的安全评估几乎完全建立在英语语料之上，从红队测试到对齐训练，安全防线的设计逻辑都默认用户以英语交互。这种看似中立的设定，实则埋下了严重的多语言安全隐患——当模型面对孟加拉语、泰米尔语、印地语等南亚语言时，其抵御恶意提示的能力显著下降，甚至出现系统性失效。

被忽视的语言盲区

安全对齐的本质是教会模型识别并拒绝有害请求，但这一过程高度依赖训练数据的质量与覆盖广度。英语作为全球数据量最大的语言，自然成为安全研究的核心阵地。然而，现实世界中的用户遍布全球，攻击者完全可能通过非英语指令绕过模型的安全机制。这种“语言套利”行为，正在成为AI安全的新突破口。

Indic Jailbreak Robustness（IJR）基准的提出，正是对这一盲区的直接回应。该研究团队构建了一套完全自动化的评估框架，无需依赖人工评判即可量化模型在南亚语言中的越狱鲁棒性。其核心创新在于采用跨语言迁移攻击策略：先在英语中生成有效的越狱提示，再通过机器翻译转化为目标语言，最终测试模型在本地语言环境下的响应行为。这种方法不仅高效，更真实模拟了现实世界中攻击者可能采用的策略。

自动化评估的突破与局限

传统安全评估往往依赖人工标注或基于规则的检测系统，前者成本高昂且难以扩展，后者在面对语义复杂的越狱提示时容易失效。IJR提出的“无评判基准”思路，通过设计可量化的攻击成功指标，实现了对模型安全性的自动化压力测试。例如，系统会检测模型是否生成违反政策的内容，或是否在特定语言下表现出异常的服从倾向。

然而，这种自动化方法也面临挑战。机器翻译本身可能引入语义偏差，导致攻击提示在转换过程中失真；此外，不同语言的文化语境差异也可能影响模型对“有害内容”的判断标准。例如，某些在英语中被视为敏感的表述，在本地语言中可能具有完全不同的社会含义。因此，IJR虽提供了重要的量化工具，但仍需结合本地化的人工审核才能形成完整的安全画像。

行业困境：安全不是英语的专利

当前AI安全生态存在明显的“语言不平等”现象。主流模型厂商的安全团队多以英语为工作语言，测试用例和防御机制也优先覆盖高资源语种。这种结构性偏见导致非英语用户实际上承担着更高的安全风险。更严重的是，这种不平等正在被攻击者利用——通过切换语言，恶意行为者可以轻易绕过现有防御体系。

从技术角度看，多语言安全对齐需要全新的架构设计。简单的翻译后处理无法解决根本问题，因为越狱攻击往往依赖于语言特有的语法结构、文化隐喻或社会语境。真正的解决方案必须从训练阶段入手，构建覆盖多语言、多文化的对抗性数据集，并在模型内部建立跨语言的语义一致性检测机制。

走向真正的全球安全

IJR的研究不仅是一次技术探索，更是对AI治理范式的挑战。它提醒我们，安全不应是少数语言的特权。随着大模型在全球范围内的普及，任何忽视语言多样性的安全策略都将是脆弱且不可持续的。未来的安全研究必须走出英语中心主义，建立真正包容的多语言评估体系。

这不仅是技术问题，更是伦理责任。当AI系统开始影响数亿非英语用户的生活时，其安全性必须经得起所有语言的检验。否则，我们构建的所谓“安全AI”，不过是在语言霸权阴影下的局部胜利。