[LG]《SteeringControl:HolisticEvaluatio

爱生活爱珂珂 2025-09-19 06:47:26

[LG]《SteeringControl: Holistic Evaluation of Alignment Steering in LLMs》V Siu, N Crispino, D Park, N W. Henry... [University of California, Santa Cruz & Washington University in St. Louis] (2025)

SteeringControl:大语言模型(LLMs)对齐调控的全面评估基准

• 聚焦核心对齐目标:有害生成(拒绝输出)、人口统计偏见(公平性)、幻觉(事实错误);同时评估次级行为如谄媚、常识道德等,揭示对齐调控的复杂交互影响。

• 构建包含17个数据集的多维行为评价体系,区分“主行为”(调控目标)与“次行为”(潜在副作用),实现系统化、跨任务的效果与耦合性评估。

• 设计模块化调控框架,拆解为方向生成(DiffInMeans、PCA、LAT)、方向选择(网格搜索、COSMIC)、方向应用(激活加法、方向消融、条件调控)三大组件,支持五种主流无训练调控方法的标准化对比。

• 基于Qwen-2.5-7B和Llama-3.1-8B两款模型实证,发现调控效果依赖模型、方法及目标行为的特定组合,且错误搭配会导致严重的概念耦合(entanglement)问题。

• 通过引入条件调控(CAST)显著降低次级行为的负面影响,实现主行为调控与副作用之间的更优权衡。

• 揭示幻觉调控最具挑战,拒绝行为调控相对容易,但各方法在效果与耦合性之间存在明显取舍,且模型结构对调控表现有决定性影响。

• 强调对齐行为非正交分布,调控单一目标常引发其他行为的连带变化,呼吁更广泛行为维度的综合评估。

• 开源代码与数据集释放,推动调控技术的复现性和社区协作。

心得:

1. 对齐调控非单目标优化,必须兼顾主目标与潜在副作用,才能实现安全稳健的模型行为调整。

2. 行为耦合源于模型内部表示的重叠结构,理解模型表征几何是设计高效调控策略的关键。

3. 条件激活调控(CAST)展现了通过动态判断何时施加干预以减少负面影响的潜力,未来调控更智能化、上下文敏感。

了解更多🔗 arxiv.org/abs/2509.13450

代码仓库🔗 github.com/wang-research-lab/SteeringControl.git

大语言模型模型对齐激活调控模型安全人工智能安全

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注