昨晚发布的新版deepseekv3 的第一波评测数据,相比旧版deepseekv3基本都有较大幅度提升。这个提升幅度可能一般的厂商直接会发个大版本了,deepseek连小版本号都不舍得更新一下[666]。
图1
图2 aider 的编码能力测试
图3 Xeophon的编码能力测试
图4 Charuru Charuru做的误导注意力评估测试。(大型语言模型在存在误导信息时的推理能力)
AI创造营
昨晚发布的新版deepseekv3 的第一波评测数据,相比旧版deepseekv3基本都有较大幅度提升。这个提升幅度可能一般的厂商直接会发个大版本了,deepseek连小版本号都不舍得更新一下[666]。
图1
图2 aider 的编码能力测试
图3 Xeophon的编码能力测试
图4 Charuru Charuru做的误导注意力评估测试。(大型语言模型在存在误导信息时的推理能力)
AI创造营
作者最新文章
热门分类
科技TOP
科技最新文章