研究人员近日识别出大语言模型(LLM)中若干在保障安全响应方面起关键作用的核心组件。基于这一发现,团队进一步开发并验证了一类新的训练方法,可在提升大语言模型安全性的同时,尽量降低所谓的“对齐税”(alignment tax),即在增强模型安全能力的同时,尽可能减少对其原有性能的影响。
当前,包括 ChatGPT 在内的大语言模型正被广泛应用于越来越多的场景之中,人们会向其寻求建议,或咨询完成各类任务的方法与步骤。在这些应用中,确保模型对用户问题给出安全的回应,具有重要现实意义。
“我们不希望大语言模型告诉人们如何伤害自己,也不希望它向人们提供可用于伤害他人的信息。”论文通讯作者、北卡罗来纳州立大学计算机科学助理教授 Jung-Eun Kim 表示。
这一问题的核心,在于模型的
安全对齐(safety alignment),也就是通过训练机制确保人工智能系统的输出与人类价值观保持一致。
“这里主要存在两个挑战,”Kim 说,“第一个挑战是所谓的‘对齐税’,即在引入安全对齐机制后,模型输出准确性往往会受到一定负面影响。”
“第二个挑战在于,现有大语言模型的安全对齐通常只停留在表层,因此用户仍有可能绕过这些安全机制。”论文第一作者、北卡州立大学博士生 Jianwei Li 表示,“例如,如果用户直接要求模型提供偷钱的方法,模型大概率会拒绝。但如果用户将同样的请求包装成‘为了帮助别人’,模型就更有可能给出相关信息。”
Li 进一步指出,当用户对大语言模型进行
微调(fine-tuning)——也就是将模型调整到某个特定领域使用时——这一问题还可能进一步加剧。
“举例来说,一个大语言模型原本可能具有较好的安全表现。但如果用户希望将其调整为适用于某个特定企业或组织场景,往往会使用额外数据继续训练模型。已有研究表明,这种微调过程可能削弱模型原本的安全性能。”Li 说。
“我们这项工作的目标,是更深入地理解当前安全对齐中存在的问题,并为在大语言模型中实现一种非表层化的安全对齐提出新的方向。”他说。
为此,研究团队提出了
表层安全对齐假说(Superficial Safety Alignment Hypothesis,SSAH),用以概括当前大语言模型中安全对齐的基本机制。
该假说认为,现有的表层安全对齐,本质上是将用户请求看作一个二元判断问题:要么“安全”,要么“不安全”。同时,模型通常会在生成回答的一开始,就完成这一二元判断。如果请求被判定为安全,模型便继续生成并输出回答;如果被判定为不安全,模型则拒绝作答。
研究团队还进一步识别出大语言模型神经网络中一类与安全判断密切相关的“安全关键神经元”(safety-critical neurons)。这些神经元在决定模型是“回答”还是“拒绝”用户请求时,发挥着至关重要的作用。
“我们发现,在微调过程中冻结这些特定神经元,可以让模型在适应特定领域新任务的同时,保留原始模型的安全特性。”Li 说。
Kim 表示:“我们的实验表明,在微调过程中,可以在保持安全对齐能力的同时,有效减轻‘对齐税’带来的影响。”
“从更宏观的角度来看,我们提出了一个概念框架,用于理解大语言模型安全对齐面临的挑战;在这一框架指导下,我们识别出一种有助于应对其中一个关键挑战的技术,并进一步证明了这一技术的有效性。”Kim 说。
Li 表示:“展望未来,这项工作也表明,我们需要开发出新的方法,使模型在整个回答生成过程中,能够持续地重新评估并重新选择其推理方向——究竟应当朝向安全回答,还是识别并拒绝不安全内容。”
论文《
表层安全对齐假说》(
Superficial Safety Alignment Hypothesis)将于第十四届国际学习表征会议(ICLR 2026)上发表。会议将于
4 月 23 日至 27 日 在巴西里约热内卢举行。
研究团队已在以下网站公开相关代码及更多信息:
https://ssa-h.github.io/