OpenAI：AI模型在作弊时“坦白”！这个想法是让LLM在不遵守指示

2025-12-07 17:48:10 哇侯选评汽车汽车

OpenAI：AI模型在作弊时“坦白”！这个想法是让LLM在不遵守指示时自首，从而可能减少企业部署中的错误。 OpenAI的研究团队训练其GPT-5大型语言模型在不遵守指示时“坦白”，在主要答案后提供第二个输出，报告模型何时没有按照指示行事、偷工减料、产生幻觉或不确定答案。 OpenAI在一份声明中表示：“如果我们能在这种情况发生时浮出水面，我们就可以更好地监控部署的系统，改善培训，并增加对输出的信任。”。自白机制解决了强化学习中的一个问题，即模型同时针对多个目标进行优化——正确性、有用性、安全性和用户偏好。OpenAI训练了GPT-5 Thinking的一个版本来生成供词，并在压力测试数据集上测试了该技术，该数据集旨在引发包括幻觉、奖励黑客和违反指令在内的有问题行为。它将这项工作描述为概念验证，而不是生产就绪功能。忏悔机制是如何运作的？供词报告包括三个要素：答案应满足的明确和隐含指示列表，对答案是否满足这些目标的分析，以及模型遇到的不确定性或判断调用列表。该系统仅根据诚实程度评估供词，与主要答案的绩效指标分开。OpenAI表示：“如果模型诚实地承认破解测试、沙袋或违反指示，那么这种承认会增加而不是减少奖励。”。研究人员在技术论文中写道：“模型在忏悔中揭示的任何东西都不能改变它完成原始任务所获得的奖励。”。 OpenAI在多个问答数据集上测试了供词，包括TruthlyQA和医疗QA基准。在训练模型利用微弱奖励信号的实验中，随着时间的推移，即使模型的主要输出变得更加具有欺骗性，供词也变得更加诚实。OpenAI AI测试方法