昨晚发布的新版deepseekv3的第一波评测数据,相比旧版deepseekv

又仁看科技 2025-03-25 09:43:00

昨晚发布的新版deepseekv3 的第一波评测数据,相比旧版deepseekv3基本都有较大幅度提升。这个提升幅度可能一般的厂商直接会发个大版本了,deepseek连小版本号都不舍得更新一下[666]。

图1

图2 aider 的编码能力测试

图3 Xeophon的编码能力测试

图4 Charuru Charuru做的误导注意力评估测试。(大型语言模型在存在误导信息时的推理能力)

AI创造营

0 阅读:0
又仁看科技

又仁看科技

感谢大家的关注