众力资讯网

Karpathy组建大模型「议会」,GPT-5.1、Gemini 3 Pro等化身最强智囊团

机器之心报道

从短视频到AI模型,人们消费内容的习惯又一次向追求效率改变。

在阅读长文、论文或海量信息时,越来越多人不再耐心从头到尾浏览,而是倾向于直接获取高密度、快速可吸收的知识。让大模型直接来一段总结——比如评论区一句「@元宝,总结一下」——已经成为一种普遍的做法。

这并不是说有什么不好。这恰恰说明在AI时代,高效获取信息本身就是人类能力的一次跃迁。

甚至连AI领域的大佬们也不例外。前OpenAI联合创始人、特斯拉AI总监AndrejKarpathy也一样。他在前几天发推,说自己「开始养成用LLM阅读一切的习惯」。

这和大多数人的阅读习惯非常相似,结合自己阅读的感悟和大模型的信息总结,我们能够形成一系列更完善的认知。

当然了,大语言模型有那么多,在获取信息,整理观点时面对不同类型的内容,其能力也是参差不齐。为了获取更加高质量的结果,Karpathy毅然决定,让最新最强的四家大模型一起干活。

于是,Karpathy在周六用氛围编程做了个新的项目,让四个最新的大模型组成一个LLM议会,给他做智囊团。

他认为:与其把问题单独问给某一家你最爱的LLM服务提供商,不如把它们都组建成一个属于你的「LLM议会」。

这个LLM议会是一个Web应用,界面看起来和ChatGPT一模一样,但每次用户提问其实会经历以下流程:

1)问题会被分发给议会中的多个模型(通过OpenRouter),比如目前是:

openai/gpt-5.1

google/gemini-3-pro-preview

anthropic/claude-sonnet-4.5

x-ai/grok-4

2)然后所有模型都能看到彼此匿名处理过的回答,并对这些回答进行审阅和排名;

3)最后,一个「主席模型(ChairmanLLM)」会把这些内容作为上下文,生成最终回答。

具体来说,他使用8个配置了不同提示词(因此性格不同)的同一模型(gpt-oss-20b)组成了一个委员会。当PewDiePie提问时,每个模型都会给出一个答案,然后它们又会对答案进行投票,从中选出最好的答案。

而Karpathy这个项目则是使用了不同的大模型进行,更加多样化。

把多个模型的回答并排放在同一个问题下看,是一件很有意思的事情。尤其是加入了多个大模型之间的相互评价和投票机制后,简直是一场全新的「赛博斗蛐蛐」。

很多时候,这些模型竟然愿意承认别家的回答比自己的更好,使得这个流程成为一种非常有意思的模型评估方式。

比如,Karpathy和「LLM议会」一起读书时,它们一致称赞GPT5.1是表现最好、洞见最丰富的模型,而始终把Claude排在最后,中间则是其他模型浮动。但Karpathy却不完全认同这种排序——比如从主观感受上,GPT5.1对他来说稍微有点啰嗦、铺陈太多,而Gemini3更凝练、处理得更好。Claude在这个领域又显得过于简洁。

谁不喜欢看大模型之间的辩论呢?

具体而言,整个项目有三个步骤:

Stage1:首次意见

用户的提问会被单独发给议会中的所有模型,并收集它们的回答。所有回答将以「标签页视图」展示,让用户可以逐个查看。

Stage2:互评

每个LLM会看到其他模型的回答。后台会将模型身份匿名化,以避免模型「偏袒自己」或偏好某个特定模型。每个LLM会被要求基于准确性与洞察力对其他回答进行排名。

Stage3:最终回答

被指定为「议会主席」的LLM会接收所有模型的回答与排名,并把这些信息整理成一个最终输出,呈现给用户。

有网友认为,这种形式最终可能成为一种基准测试:

话虽如此,LLM议会的数据流设计可能还有一整片未被探索的设计空间。多模型集成的构建方式可能还远未被充分研究。

如果大家也对这个项目感兴趣,Karpathy已经将该项目开源。

项目地址:https://github.com/karpathy/llm-council

但提醒一下:Karpathy不会对这个项目提供任何支持,它是原样提供的、为其他人提供灵感的小工具,他也不打算继续改进它。

我们在之前的测试中,也用氛围编程的方法复刻了一个差不多的项目,和Karpathy的LLM议会略有相似,使用了两个不同的模型部署。

或许我们也可以把这个小项目开源出来让大家玩一玩?

参考链接:

https://x.com/karpathy/status/1992381094667411768

https://github.com/karpathy/llm-council