大模型在各种基准测试里刷题刷到满分的现象越来越普遍了,于是就有很多新的测试标准被搬出来,下面虽然未必完全科学,但整活绝对是一流的。 这个测试环境叫Prophet Arena(先知竞技场),应该是参考了市场预测平台PolyMarket,运行原理是把真实世界里还没有产生结果的事件当作「考题」,让大模型发挥自己的智能去预测走向,当真实结果出来后再来对比核查是否说对了,最后叠加多次测验的对错得出分数。 我罗列一下题目你们感受一下: - 2025年美联储会有几次降息? - 第98届奥斯卡最佳导演将是谁? - 以太坊今年的涨幅能达到多少? - 川普内阁里第一个离职的人会是谁? - 美国职业棒球联盟的冠军将是哪支队伍? 嘛,感觉这很适合在未来对接到实时的金融市场里,让各家AI上阵对比操盘能力,公开它们的收益率,看看成色到底如何。 目前根据已经开盘的结果累计测算下来,GPT-5的预测准确度排在第一,没有Claude好像因为是后加进来的,样本量还不足,还需要一段时间之后才能进榜。
华为不签共享协议,是在硬撑面子还是算准了未来?不签共享协议,华为把几百亿砸进
【22评论】【4点赞】