智源发布FlagEval“百模”评测结果，字节Doubao-pro-32k-pr

前沿产业 2024-12-19 23:54:15

智源发布FlagEval“百模”评测结果，字节Doubao-pro-32k-preview位居语言模型主观评测第一 12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果，语言模型主观评测重点考察模型中文能力，结果显示，字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二，OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四，阿里巴巴Qwen-Max-0919排名第五。在语言模型客观评测中，OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二，阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四，Meta Llama-3.3-70B-Instruct排名前五。语言模型，针对一般中文场景的开放式问答或者生成任务，模型能力已趋于饱和稳定，但是复杂场景任务的表现，智源研究院认为，国内头部语言模型仍然与国际一流水平存在显著差距。（全天候科技）

0 阅读：16

感谢大家的关注

作者最新文章

1

人民日报——国产大飞机C919累计承运旅客突破100万人次，累计开通15条航线，

2

美国企业对特定支持NETCONF的无源光网络设备提起337调查申请 2024年

3

银联国际与老挝国家支付网络互联互通合作落地，老挝市场二维码商家全面受理银联合作钱

4

秘鲁能矿部数据显示，10月份该国铜产量为236797吨，同比下降1.4%，主要是

5

据报道,美国针对国家安全风险,禁止使用Tp连接路由器。

6

国产飞机今年交付近50架创历史新高中国商飞公司副总经理魏应彪在今日举行的国

7

深圳今年前11个月外贸进出口规模4.11万亿元，历史首次超4万亿元据深圳海关

8

欧洲绿色转型有限公司（AIM:EGT）是一家专注于绿色经济资产的AIM上市公司，

9

从这个角度看，美国制造业回归是彻底失败的。美国制造业实际增加值占GDP的比重

10

Verde AgriTech Ltd （TSX：“NPK”）（OTCQX：“VN

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

财经TOP

1

蛇股第二波？

2

预增大全！逾190家公司年报预增，其中74家业绩预增100%以上：

3

机器人龙头要一字吗[笑着哭]

4

起初大家都以为，一觉醒了，牛市突然就来了起初大家都以为，牛市很近了起初大家都

5

中国近30年GDP前20城市前后变化

6

此刻“老公”的含金量仍在上升

7

这是开始要整汇率了，现在汇率、股市、金融市场，压力都太大了

8

挑战账户💰翻倍，第十天!进:三丰智能持:来伊份

9

提高居民收入，有效扩大消费，其实很简单！现在中国有2亿股民，6亿基民，如果能

10

涨知识了，原来金字塔入口是这样的

财经最新文章

1

为什么都在说:大A要憋出大阳线？大A的走势虽然有些失望，但并没有

2

【兆易创新：预计2024年净利润同比增长576.43%】【韦尔股份：预计2024

3

游资龙虎榜|1月21日游资动向

4

全球著名电器品牌总厂汇总：1、格力——总厂：中国广东珠海1、格力——总厂：中国广

5

钱都在休息，春节红包行情是震荡1,如此大的利好，都没放量，春节红包行情大概率没有

6

2025年的股市，将是科技的盛宴，收藏！！1、人形机器人：长盛轴承、巨轮智能、拓

7

A股绝对是世界第一奇葩！外围股市涨，他不涨。外围股市跌，他不跌。国内经济好，他不

8

1月21日上午人形机器人概念股主力资金净大幅买入居前的分别为:柯力传感(1.4

9

川大智胜封住跌停板了，挺戏剧的！

10

川大智胜或面临退市风险警示2024年预亏4900万元一6300万元[吃瓜]