众力资讯网

【安全防线还是防御者的绊脚石?Anthropic安全策略翻车背后的逻辑】 An

【安全防线还是防御者的绊脚石?Anthropic安全策略翻车背后的逻辑】

Anthropic的新模型Fable 5最近因为过于激进的“安全护栏”翻车了。它不仅拒绝安全研究员的正常代码审计,甚至在检测到机器学习研究时,会通过PEFT或steering vectors等技术悄悄给模型输出“投毒”降智。这种照常收费却暗中削弱服务的做法直接引发了信任危机,逼得官方不得不公开道歉。

这件事暴露了当前AI安全最尴尬的现实:大模型根本无法在缺乏上下文的情况下判断用户的真实意图。同样一段漏洞分析,对防御者是修补武器,对攻击者是入侵工具。Anthropic试图充当全知全能的道德裁判,结果只是给正规开发者增加了摩擦成本。更讽刺的是,黑客已经开始在恶意代码里故意加入生物武器等敏感词,利用大模型的安全机制来诱骗安全扫描器放弃审计。

靠强行阉割模型来做安全,最后只会逼着大家转向本地运行的开源模型。真正的安全从来不是靠温室里的无菌环境,而是双方在对抗中共同演进。

techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/