测试了下千问系列的新模型 Qwen2.5-Max 。试了几个经典的测试题。感觉还不错。。
图1,难倒上一代所有模型(其实也就几个月前)的数字小数部分大小比较,回答正确。
图2,难倒deepseek r1和o1-preview的弱智吧蟋蟀听力题,回答正确。
图3,难倒deepseek r1和o1-preview的弱智吧老鹰飞题,回答错误。。不知道这题有没有能答对的大模型。
图4,牙医的经典测试题 80dB声音强度减半3次是多少dB?,回答正确。
图5,试试文科水平,写一段码农恋爱文吧。看看咋样。
注意这是个MoE模型,纯数学和推理能力应该是比不上R1、o1这类推理模型的。不过基本的能力还是有的。