智源发布FlagEval“百模”评测结果,字节Doubao-pro-32k-pr

前沿产业 2024-12-19 23:54:15

智源发布FlagEval“百模”评测结果,字节Doubao-pro-32k-preview位居语言模型主观评测第一 12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果,语言模型主观评测重点考察模型中文能力,结果显示,字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五。 在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。 语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,智源研究院认为,国内头部语言模型仍然与国际一流水平存在显著差距。(全天候科技)

0 阅读:16
前沿产业

前沿产业

感谢大家的关注