大模型在各种基准测试里刷题刷到满分的现象越来越普遍了，于是就有很多新的测试标准被

大模型在各种基准测试里刷题刷到满分的现象越来越普遍了，于是就有很多新的测试标准被搬出来，下面虽然未必完全科学，但整活绝对是一流的。

这个测试环境叫Prophet Arena（先知竞技场），应该是参考了市场预测平台PolyMarket，运行原理是把真实世界里还没有产生结果的事件当作「考题」，让大模型发挥自己的智能去预测走向，当真实结果出来后再来对比核查是否说对了，最后叠加多次测验的对错得出分数。

我罗列一下题目你们感受一下：

- 2025年美联储会有几次降息？

- 第98届奥斯卡最佳导演将是谁？

- 以太坊今年的涨幅能达到多少？

- 川普内阁里第一个离职的人会是谁？

- 美国职业棒球联盟的冠军将是哪支队伍？

嘛，感觉这很适合在未来对接到实时的金融市场里，让各家AI上阵对比操盘能力，公开它们的收益率，看看成色到底如何。

目前根据已经开盘的结果累计测算下来，GPT-5的预测准确度排在第一，没有Claude好像因为是后加进来的，样本量还不足，还需要一段时间之后才能进榜。

众力资讯网

大模型在各种基准测试里刷题刷到满分的现象越来越普遍了，于是就有很多新的测试标准被

热门分类