大模型“自动修 bug”能力将提升，豆包团队开源首个多语言代码修复基准 Mult

大模型“自动修 bug”能力将提升，豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

豆包大模型团队今日通过官方公众号宣布，首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源，可用于评估和提升大模型“自动修 Bug”能力。

在 SWE-bench 基础上，Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言，是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue，历时近一年构建，以尽可能准确测评和提高大模型高阶编程智能水平。