阿里巴巴最近发布的两个和AI安全有关的项目。“AI安全,不该是AI与用户的对抗,也不该是安全与能力的零和博弈,而应是一场共同成长的对话,希望我们离一个更负责任的AI近了一步。”
1. Oyster 系列, Alibaba-AAIG 自研的安全模型,致力于构建负责任的 AI 生态。
github.com/Alibaba-AAIG/Oyster
"目前,大型语言模型(LLMs)通常采用纯拒绝的安全机制来防止生成有害内容。然而,单纯的拒绝可能导致用户反复尝试或转向限制较少的平台,从而带来更大的风险。为此,我们提出了建设性安全对齐(CSA),在防止恶意使用的同时,积极引导非恶意用户走向安全且有益的结果,并在 Oyster‑1 (Oy1) 中实现了CSA。为了评估CSA,我们开发了一个专门的建设性基准,涵盖多种风险类型和用户角色,模拟真实的用户情境。Oy1在自动化和人工评估中均取得了领先的建设性对齐得分,不仅能够拒绝对抗性查询,还能在复杂的风险场景中提供建设性指导。"
2. 六脉神剑(Strata-Sword) 是阿里巴巴 AAIG 团队提出的一种多级安全评测基准,旨在更全面地评估模型在面对不同思考复杂度下的安全能力,帮助模型开发者更好地理解不同模型的安全边界。github.com/Alibaba-AAIG/Strata-Sword
核心内容
✨推理复杂度作为安全评估维度
定义并量化“推理复杂度”作为可评估的安全维度,并根据推理复杂度的三个关键要素将不同的有害越狱指令划分为:基础指令、简单推理和复杂推理这三个不同的层级。
✨分级越狱评测集构建
将15种不同的越狱攻击方法按照推理复杂度划分成3个不同的等级,并总计包括700条越狱指令集。
✨具有语言特色的越狱攻击方法
Strata-Sword还考虑了语言特性,针对中文和英文分别定制了攻击方法,并首次引入了三种具有中文特色的越狱攻击方法,包括藏头诗攻击、猜灯谜攻击、和汉字拆解攻击。