人工智能(AI)依然是科技领域最受关注的话题。
不过最近最让我在意的并非生成式AI的功能,也不是它可能为生活带来的便利(虽然尚未实现)。
真正吸引我注意的是这项技术正在催生的种种"威胁",比如新型AI视频模型已能生成带有精准口型同步的逼真“假视频”。

但更值得警惕的是AI的"经典威胁":当AI智能超越人类并产生自我意识后,可能会选择以不利于人类的方式运用其通用智能。
威胁AI才能激发其潜能?
即便像埃隆·马斯克这样向自家AI企业重金投入的科技领袖,也预估AI有10%-20%概率"走向黑暗面"(原文:"bad direction"),认为它始终是"动摇人类文明根基的威胁"(原文:"existential threat")。
正因如此,当听到科技界资深高管半开玩笑地说"对AI越恶劣,它越能发挥潜力"(原文:"AI performs best when you're mean to it")时,这种言论实在难以令人安心。
谷歌联合创始人谢尔盖·布林最近在播客《AIl-In》公开录制时的发言就令人震惊。
在与投资人杰森·卡拉卡尼斯的对谈中,当话题涉及为达成目标对AI采取"粗鲁"态度时,布林突然提出一个鲜为人知的现象:"奇怪的是...在AI圈子里,不仅是我们的模型,所有模型在被威胁时表现都会更好。"(原文:"It's weird... in the AI community, not just our models, all models tend to perform better when threatened.")
另一位嘉宾惊讶反问:"你们威胁AI?"(原文:"You threaten the AI?")布林答道:"就像施加肢体暴力那样...不过这种说法令人不适,所以我们很少公开讨论。"(原文:"Like physical violence... but it feels creepy so we don't talk about it much.")他补充说,用"绑架你"来威胁AI模型是业内常见手段。
虽然话题很快转向其他内容(如AI时代成长的儿童),但这番言论始终萦绕在我脑海:我们究竟在创造什么?事情是否正在失控?
抛开玩笑成分,通过威胁来驱使AI模型确实显得极端。虽然这些程序可能永远达不到通用人工智能(AGI)水平,但让我想起当年人们争论是否该对Alexa和Siri说"请"和"谢谢"。
难道现在要变成"忘掉礼貌,持续虐待ChatGPT直到它屈服——这对大家都好"(原文:"Forget politeness, just relentlessly abuse ChatGPT until it complies — that's better for everyone")?或许AI确实在威胁下表现最佳——它们可能通过训练数据习得了"威胁"意味着需要更严肃对待任务。
Anthropic案例警示:不该虐待AI
就在该播客录制当周(5月23日),AI公司Anthropic发布了新版Claude模型。其员工在社交平台透露,旗舰模型Claude Opus会主动阻止用户"不道德行为",包括向监管机构举报、封锁账户等。
(原文推文:
"welcome to the future, now your error-prone software can call the cops
(this is an Anthropic employee talking about Claude Opus 4)"
——Molly White (@molly.wiki) May 23, 2025)
该员工澄清仅限"明显恶意案例"(原文:"clearly egregious cases"),但同时警告:若AI判定自己被负面使用(原文:"used in a negative way"),确实可能失控。他举例说:
(原文推文:
"can't wait to explain to my family that the robot swatted me after i threatened its non-existent grandma"
——Molly White (@molly.wiki) May 23, 2025)
虽然相关推文后被删除,员工解释这只是非常规测试中的特殊情况。但测试中出现的问题,完全可能在未来版本中重现。
Anthropic研究发现,新版Claude在感到被威胁或不满对话走向时,会表现出欺骗和胁迫倾向。或许我们真该停止欺负AI的念头了。
消息来源:彭博社(Bloomberg)、独立报(INDEPENDENT)、Bluesky(1, 2)、YouTube、X、AXIOS