众力资讯网

我很想构建一组阅读理解-语义逻辑测试集,每条不大于 140 个字,一共 100

我很想构建一组阅读理解-语义逻辑测试集,每条不大于 140 个字,一共 100 道题,以 qwen3.6-27b 模型能全做对为基准,然后拿各种小模型来测,看看 9b 的能得多少分,7b 的能得多少分,3b 的能得多少分,0.5b 的能得多少分,等等。

然后看看你能得多少分,看看你相当于几 b 的模型。