众力资讯网

技术博客: 大语言模型能否识别其他大语言模型?地址:chinmaykarkar.

技术博客: 大语言模型能否识别其他大语言模型?地址:chinmaykarkar.com/blog/blogger_blog/本文将介绍我们能否通过强化学习训练一个小模型,来捕捉不同大语言模型的写作风格,从而了解各个模型的写作特点,以及强化学习是否能识别这些写作风格。

“撰写这篇博客的灵感源于与Joey的一次讨论——他怀疑我上一篇博客是否经过Claude编辑,以及能否通过独特的气味特征辨别文字出自Claude还是GPT。

同时,我一直在思考AI写作的问题,尤其是X平台上那些让我读起来异常费力的热门文章。选择这个问题的动机,首先是因为它本身是个有趣的挑战,其次是想探究:我们人类擅长检测和捕捉的"模型气味"究竟是什么?强化学习能否模拟这种能力?

这个看似简单的问题,最终占据了我两周的大部分时间,并让我和我的实习生同事一起深入探讨了强化学习及相关后训练技术的优缺点。

so:我们尝试用强化学习训练Qwen3.5-9B模型,使其仅凭文字就能区分Claude、ChatGPT和Gemini。强化学习的表现始终停滞不前,而监督微调却达到了惊人的样本效率和性能指标,一个简单的线性分类器甚至超越了这两种方法。博客的其余部分是对此的剖析:强化学习为何屡屡失败,信噪比数学分析如何预示了这一结果,以及我们尝试的修复方案(类似OPCD/RLSD的在线策略自蒸馏方法)大多只是印证了最初的诊断。”