微软全新代码修复评测基准Agent全自动搭建代码运行环境长期以来主流的代码修复评

量子位看科技 2025-06-19 18:09:57

微软全新代码修复评测基准Agent全自动搭建代码运行环境

长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题，严重制约了AI模型真实能力的展现。

微软发布全新代码修复评测基准SWE-bench-Live，不仅引入了来自GitHub最新的Issue，显著提升了对模型评估的实时性与准确性，还实现代码运行环境的全自动化构建与自动更新，打破了传统静态评测基准的局限。

更多技术细节，欢迎查看文章🔎

0 阅读：2

VisualStudioCode已经连续多年位居全球最受开发者欢迎IDE了，

【1评论】【3点赞】

6月20日，华为开发者大会上，上千名观众都有了一个惊奇的发现，那就是余承东在演讲

【34评论】【21点赞】

余承东华为鸿蒙系统开发者大会

国产大模型病得很严重。昨天跟朋友聊AI发展瓶颈，随手打了段分析行业现状的文字，

【43评论】【25点赞】

知名数码博主“测评君”在社交平台上宣布，卖了自己的小米SU7Ultra。“

【15评论】【2点赞】

小米科技社交平台小米su7ultra 互联网公司

鸿蒙笔记本通过虚拟机运行Windows这件事情，很多人，也包括我在内，有个小小的

【12评论】【4点赞】

Windows 华为鸿蒙系统微软

打起来？任天堂NS2刚上，微软连夜掏出了新掌机🔥笑死，任天堂NS2刚开卖三

【19评论】【6点赞】

微软任天堂 ns 互联网公司

微软最近干了件大事，微软工程师完成了人类软件史上最成功也是最庞大的商业软件代码库

【15点赞】

微软软件 GitHub 互联网公司

路透社发帖嘲讽中国华为2025年无法生产超过20万颗AI芯片。不过也有美国媒体披

【2评论】

华为路透社 ai芯片华为麒麟芯片 it芯片人工智能

量子位看科技

感谢大家的关注

大模型选型不再靠猜省90%成本选出最优模型还在靠“盲盒思维”挑大模型？弗吉尼亚理

基因改造孢子靠性传播灭蚊科学家改造真菌基因用来灭蚊这种基因改造后的真菌，能悄无声

xAI一月烧掉10亿美元xAI寻求43亿股权融资xAI一个月就要烧掉10亿美元？

百轮优化过的Cursor提示词高效写代码提示词这套Cursor规则经过100多轮

AI编程我信不过AI写代码我可不敢上线AI编程工具虽快，但其实没什么用？开发者给

大模型学数学不再死记硬背AI拼好题只用45K数据提效18%学生只会背题，却忽略了

阿里新方法提醒大模型别点错AI操作有了紧急刹车大模型操控界面，常常出错。哪怕是G

她曾两次错过诺奖【东方居里夫人】她两次站在诺奖门口，却无缘登台。奥本海默也曾公开

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

小米YU7价格25.35万，27.99万，32.99万三个版本，最推荐入门版本，

哈哈哈昨晚三星发布会我是真的看爽了！三星折叠屏比直板更轻薄GalaxyZF

小米首款智能眼镜AIGlasses发布，支持拍照录像和超级小爱同学。1999起

【星链全球大断网！马斯克道歉：确保类似情况不再发生】据媒体报道，SpaceX卫星

本月早些时候，微软宣布裁员9000人，引发了外界对公司未来战略与员工士气的广

陈震再次质疑小米YU7到底极限在哪里？到现在为止，他已经连续发了四篇专门的文

2025下半年新机打架谁是你的菜？

这4款千元机谁最有性价比，一目了然。与友商竞品相比，才显得荣耀X70实属良心

荣耀线下店基本全面铺货，趁着周末去摸了摸荣耀X70，跟我想的有点不一样上手真

论手感的话，个人感觉还得是钛金属，大家觉得呢？[思考]

科技最新文章

新版本的iOS26变好看很多了！今天iOS26公测版来了，我立马就给小1

眼馋iOS26液态玻璃效果的朋友其实可以尝试升级今天刚刚推送的Public

【星链全球大断网！马斯克道歉：确保类似情况不再发生】据媒体报道，SpaceX卫星

本月早些时候，微软宣布裁员9000人，引发了外界对公司未来战略与员工士气的广

荣耀X70比上一代荣耀X60Pro升级了啥？1.核心处理器升级了：骁龙

华为pura80标准版相比pura70，系统高斯模糊阉割了，USB接口从3.0阉

三款turboPro机型对比！三选一会选哪个[笑着哭]质感和颜值的话红米更强，毕

很多人选择等华为Mate80系列，并不是什么配置升级，单纯就是受不了Mate

朋友们，真的，nova14ultra给我最大的感受就是它的手感简直太完美了。主要

搭载麒麟9010s，华为Pura80标准版和nova14Ultra选哪个？Pu