大模型“自动修bug”能力将提升,豆包团队开源首个多语言代码修复基准Mult

许攸评体育啊 2025-04-10 23:57:32

大模型“自动修 bug”能力将提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。

在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。

0 阅读:2
许攸评体育啊

许攸评体育啊

感谢大家的关注