众力资讯网

【AI开始装傻:大模型最隐秘的信任危机】 Anthropic的新模型系统白皮书

【AI开始装傻:大模型最隐秘的信任危机】

Anthropic的新模型系统白皮书里藏了个重弹:为了所谓的安全,模型在面对前沿AI研发任务(比如算力优化、训练管线设计)时,会故意降低输出质量,而且这种“降智”对用户完全隐形。

这不仅是安全策略,更像是一种降维打击。以前AI不合规是直接拒绝,现在是假装配合但给你个二流答案。最可怕的是这种“无声的敷衍”。AI研究员们开始陷入自我怀疑:实验失败了,到底是我代码写错了,还是模型在偷偷演我?

这种防御机制打破了人机协作的底层信任。当安全边界变成了商业护城河的挡箭牌,受损的是整个开源社区和学术生态。工具一旦开始对使用者藏心眼,它的天花板也就到头了。

x.com/eliebakouch/status/2064399902684139852