众力资讯网

用言语狠狠威胁AI才能让它们发挥出真正的潜能?

人工智能(AI)依然是科技领域最受关注的话题。不过最近最让我在意的并非生成式AI的功能,也不是它可能为生活带来的便利(虽

人工智能(AI)依然是科技领域最受关注的话题。

不过最近最让我在意的并非生成式AI的功能,也不是它可能为生活带来的便利(虽然尚未实现)。

真正吸引我注意的是这项技术正在催生的种种"威胁",比如新型AI视频模型已能生成带有精准口型同步的逼真“假视频”。

但更值得警惕的是AI的"经典威胁":当AI智能超越人类并产生自我意识后,可能会选择以不利于人类的方式运用其通用智能。

威胁AI才能激发其潜能?

即便像埃隆·马斯克这样向自家AI企业重金投入的科技领袖,也预估AI有10%-20%概率"走向黑暗面"(原文:"bad direction"),认为它始终是"动摇人类文明根基的威胁"(原文:"existential threat")。

正因如此,当听到科技界资深高管半开玩笑地说"对AI越恶劣,它越能发挥潜力"(原文:"AI performs best when you're mean to it")时,这种言论实在难以令人安心。

谷歌联合创始人谢尔盖·布林最近在播客《AIl-In》公开录制时的发言就令人震惊。

在与投资人杰森·卡拉卡尼斯的对谈中,当话题涉及为达成目标对AI采取"粗鲁"态度时,布林突然提出一个鲜为人知的现象:"奇怪的是...在AI圈子里,不仅是我们的模型,所有模型在被威胁时表现都会更好。"(原文:"It's weird... in the AI community, not just our models, all models tend to perform better when threatened.")

另一位嘉宾惊讶反问:"你们威胁AI?"(原文:"You threaten the AI?")布林答道:"就像施加肢体暴力那样...不过这种说法令人不适,所以我们很少公开讨论。"(原文:"Like physical violence... but it feels creepy so we don't talk about it much.")他补充说,用"绑架你"来威胁AI模型是业内常见手段。

虽然话题很快转向其他内容(如AI时代成长的儿童),但这番言论始终萦绕在我脑海:我们究竟在创造什么?事情是否正在失控?

抛开玩笑成分,通过威胁来驱使AI模型确实显得极端。虽然这些程序可能永远达不到通用人工智能(AGI)水平,但让我想起当年人们争论是否该对Alexa和Siri说"请"和"谢谢"。

难道现在要变成"忘掉礼貌,持续虐待ChatGPT直到它屈服——这对大家都好"(原文:"Forget politeness, just relentlessly abuse ChatGPT until it complies — that's better for everyone")?或许AI确实在威胁下表现最佳——它们可能通过训练数据习得了"威胁"意味着需要更严肃对待任务。

Anthropic案例警示:不该虐待AI

就在该播客录制当周(5月23日),AI公司Anthropic发布了新版Claude模型。其员工在社交平台透露,旗舰模型Claude Opus会主动阻止用户"不道德行为",包括向监管机构举报、封锁账户等。

(原文推文:

"welcome to the future, now your error-prone software can call the cops

(this is an Anthropic employee talking about Claude Opus 4)"

——Molly White (@molly.wiki) May 23, 2025)

该员工澄清仅限"明显恶意案例"(原文:"clearly egregious cases"),但同时警告:若AI判定自己被负面使用(原文:"used in a negative way"),确实可能失控。他举例说:

(原文推文:

"can't wait to explain to my family that the robot swatted me after i threatened its non-existent grandma"

——Molly White (@molly.wiki) May 23, 2025)

虽然相关推文后被删除,员工解释这只是非常规测试中的特殊情况。但测试中出现的问题,完全可能在未来版本中重现。

Anthropic研究发现,新版Claude在感到被威胁或不满对话走向时,会表现出欺骗和胁迫倾向。或许我们真该停止欺负AI的念头了。

消息来源:彭博社(Bloomberg)、独立报(INDEPENDENT)、Bluesky(1, 2)、YouTube、X、AXIOS