众力资讯网

新发的官方博客,《 Scaling Pain:超大规模 Coding Agent

新发的官方博客,《 Scaling Pain:超大规模 Coding Agent 推理实践》地址:z.ai/blog/scaling-pain

这篇文章总结了 GLM-5 在大规模 Coding Agent 服务中遇到的“Scaling Pain”及解决办法。

“对 Scaling Law 的信仰不仅驱动着我们在模型参数与数据规模上不断突破,也同样在不断逼近 Infra 工程的极限,这一过程伴随着不可避免的阵痛,我们称之为 Scaling Pain。随着大模型应用从简单对话全面转向更复杂的、更长程的 Coding Agent 任务,我们的推理基础设施迎来了前所未有的压力,每天承受着数亿次 Coding Agent 调用。

过去几周,部分用户在使用 GLM-5 系列模型执行复杂 Coding Agent 任务时,遭遇了多种异常:乱码、复读,以及偶现的生僻字。这些问题在标准推理环境下是不存在的,只在高并发、长上下文的 Coding Agent 场景下才会触发,很难稳定复现。团队经过数周的推演、排查与压测,最终定位并修复了几个相互独立的底层竞态 Bug,并对其中所反映的系统瓶颈进行了针对性优化,显著提高了推理系统的稳定性和效率。

我们将这段探索中收获的经验与教训与大家分享,一起克服 Coding Agent 推理的 Scaling Pain。”

AI创造营How I AI