用言语狠狠威胁AI才能让它们发挥出真正的潜能？

人工智能（AI）依然是科技领域最受关注的话题。

不过最近最让我在意的并非生成式AI的功能，也不是它可能为生活带来的便利（虽然尚未实现）。

真正吸引我注意的是这项技术正在催生的种种"威胁"，比如新型AI视频模型已能生成带有精准口型同步的逼真“假视频”。

但更值得警惕的是AI的"经典威胁"：当AI智能超越人类并产生自我意识后，可能会选择以不利于人类的方式运用其通用智能。

威胁AI才能激发其潜能？

即便像埃隆·马斯克这样向自家AI企业重金投入的科技领袖，也预估AI有10%-20%概率"走向黑暗面"（原文："bad direction"），认为它始终是"动摇人类文明根基的威胁"（原文："existential threat"）。

正因如此，当听到科技界资深高管半开玩笑地说"对AI越恶劣，它越能发挥潜力"（原文："AI performs best when you're mean to it"）时，这种言论实在难以令人安心。

谷歌联合创始人谢尔盖·布林最近在播客《AIl-In》公开录制时的发言就令人震惊。

在与投资人杰森·卡拉卡尼斯的对谈中，当话题涉及为达成目标对AI采取"粗鲁"态度时，布林突然提出一个鲜为人知的现象："奇怪的是...在AI圈子里，不仅是我们的模型，所有模型在被威胁时表现都会更好。"（原文："It's weird... in the AI community, not just our models, all models tend to perform better when threatened."）

另一位嘉宾惊讶反问："你们威胁AI？"（原文："You threaten the AI?"）布林答道："就像施加肢体暴力那样...不过这种说法令人不适，所以我们很少公开讨论。"（原文："Like physical violence... but it feels creepy so we don't talk about it much."）他补充说，用"绑架你"来威胁AI模型是业内常见手段。

虽然话题很快转向其他内容（如AI时代成长的儿童），但这番言论始终萦绕在我脑海：我们究竟在创造什么？事情是否正在失控？

抛开玩笑成分，通过威胁来驱使AI模型确实显得极端。虽然这些程序可能永远达不到通用人工智能（AGI）水平，但让我想起当年人们争论是否该对Alexa和Siri说"请"和"谢谢"。

难道现在要变成"忘掉礼貌，持续虐待ChatGPT直到它屈服——这对大家都好"（原文："Forget politeness, just relentlessly abuse ChatGPT until it complies — that's better for everyone"）？或许AI确实在威胁下表现最佳——它们可能通过训练数据习得了"威胁"意味着需要更严肃对待任务。

Anthropic案例警示：不该虐待AI

就在该播客录制当周（5月23日），AI公司Anthropic发布了新版Claude模型。其员工在社交平台透露，旗舰模型Claude Opus会主动阻止用户"不道德行为"，包括向监管机构举报、封锁账户等。

（原文推文：

"welcome to the future, now your error-prone software can call the cops

(this is an Anthropic employee talking about Claude Opus 4)"

——Molly White (@molly.wiki) May 23, 2025）

该员工澄清仅限"明显恶意案例"（原文："clearly egregious cases"），但同时警告：若AI判定自己被负面使用（原文："used in a negative way"），确实可能失控。他举例说：

（原文推文：

"can't wait to explain to my family that the robot swatted me after i threatened its non-existent grandma"

——Molly White (@molly.wiki) May 23, 2025）

虽然相关推文后被删除，员工解释这只是非常规测试中的特殊情况。但测试中出现的问题，完全可能在未来版本中重现。

Anthropic研究发现，新版Claude在感到被威胁或不满对话走向时，会表现出欺骗和胁迫倾向。或许我们真该停止欺负AI的念头了。

消息来源：彭博社（Bloomberg）、独立报（INDEPENDENT）、Bluesky(1, 2)、YouTube、X、AXIOS

众力资讯网

用言语狠狠威胁AI才能让它们发挥出真正的潜能？

热门分类