测试了下千问系列的新模型Qwen2.5-Max。试了几个经典的测试题。感觉还

又仁看科技 2025-01-30 09:17:23

测试了下千问系列的新模型 Qwen2.5-Max 。试了几个经典的测试题。感觉还不错。。

图1，难倒上一代所有模型（其实也就几个月前）的数字小数部分大小比较，回答正确。

图2，难倒deepseek r1和o1-preview的弱智吧蟋蟀听力题，回答正确。

图3，难倒deepseek r1和o1-preview的弱智吧老鹰飞题，回答错误。。不知道这题有没有能答对的大模型。

图4，牙医的经典测试题 80dB声音强度减半3次是多少dB？，回答正确。

图5，试试文科水平，写一段码农恋爱文吧。看看咋样。

注意这是个MoE模型，纯数学和推理能力应该是比不上R1、o1这类推理模型的。不过基本的能力还是有的。

0 阅读：16

又仁看科技

感谢大家的关注

作者最新文章

1

尊界S800上春晚虽然买不起豪车，不过看豪车评测还挺有意思，各种小细节，有时

2

一张图看linux启动过程。制图:bytebytego步骤 1 - 开机后，BI

3

前OpenAI大神Andrej Karpathy 对DeepSeek R1的推文

4

卡内基梅隆大学（CMU）在2025年春季开设的一门公开课——“Machine L

5

虚假的AI炒股：收集各种股市数据，训练模型，预测股市走向，然后赔本真实的AI炒股

6

发几本经典的项目供大家打发时间。之前其实都发过，这里做个汇总，从基础到往AI方向

7

开源硬件 OpenHaystack，创建自己的 AirTag 并接入苹果的 F

8

Linux内核教程linux-kernel-labs.github.io内容涵盖

9

[笑cry]deepseek在推上是被越传越离谱了..

10

第一次见deepseek这个提示。看来用户增长的速度还是超出他们预期了……

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

荣耀和华为放一起对比，看看硬件配置。

2

这是什么手机，这么圆？？

3

二选一的话，必须小米，一秒钟都不用犹豫

4

有点想换手机的冲动了

5

据网友爆料，广东湛江deepseek创始人梁文峰，除夕回乡过年，家乡人拉横幅

6

我要有刘强东那实力，我也娶个这样的……

7

马斯克前女友当年的颜值真的是顶级啊！难怪连马斯克都被她拒绝了好几次！

8

我裸奔iPhone16ProMax了几天，发现屏幕好像变得越来越滑了，

9

荣耀总裁赵明离职果然无风不起浪，辟谣了半天今天实锤了！赵明离职正式官宣，主要

10

曾经熟悉的手机品牌

科技最新文章

1

#OpenAICEO承认在开源问题上犯错#【OpenAI首席执行官承认：在开源方

2

【#英特尔对DeepSeek进行深度优化#】美国科技巨头正积极拥抱DeepSee

3

曾经熟悉的手机品牌

4

估计华为公关放假了，这绝对是余承东自己上号发的微博[doge]

5

真的是打不过就加入！昨天还在质疑DeepSeek的硅谷大厂，如微软、英伟达、亚

6

买手机，‮纠不‬结，记住这10个‬口诀：1.第一、想要信号强，华为是优选。2

7

中国DeepSeek遭83小时暴击！国产AI圈炸锅了！一支杭州小团队用600

8

如果不是国补以后手机销量排名出来！多少人都蒙在鼓里，说句实话没有这个榜单，你永远

9

据网友爆料，广东湛江deepseek创始人梁文峰，除夕回乡过年，家乡人拉横幅

10

刚刚，星链迷你（StarlinkMini）在墨西哥上市，几分钟即可连接高速互联