规约驱动开发热度回落!LLM 迭代暴露短板,事实优先方案90 天落地
一、行业热潮突变,SDD 从巅峰开始降温近两年 AI 编程快速普及,规约驱动开发(SDD)凭借约束 AI 代码生成、减
一、行业热潮突变,SDD 从巅峰开始降温近两年 AI 编程快速普及,规约驱动开发(SDD)凭借约束 AI 代码生成、减少幻觉问题的能力,成为无数开发团队的主流选择。这套模式用标准化书面规则划定代码逻辑边界,一度被业内视作解决 AI 编程混乱的最优解,相关配套工具也迎来爆发式增长。
但一组长期实测数据,打破了行业对 SDD 的固有认知。有业内研究者开展对照测试,一份 2025 年 6 月编写的可执行测试用例,先后适配 Claude Sonnet 3.5、3.7、4 以及 Opus 4.5 + 多个版本,全程无需修改就能稳定运行;可用来描述同一接口、共计 1500 字的书面规约,却因为大模型持续迭代,先后完成四次重新解读与调整。
谷歌趋势的数据也印证了行业风向的变化。SDD 相关关键词的搜索热度,此前四年一直处于低位,2025 年 8 月至 2026 年 3 月,热度一路飙升至满分 100,十个月完成从零到行业主流的跨越。进入 2026 年 5 月,热度回落至 86,整体下滑趋势明显。这样的发展轨迹,和早年重型 AOP 框架、单体 ESB 技术从火爆到降温的过程高度相似。
当下不少团队已经将 SDD 工具接入生产环境,CI 流水线不得不跟着大模型版本频繁更新适配。书面规约反复改写、文档维护成本持续走高,AI 生成代码的稳定性时好时坏,这是目前多数 AI 开发团队共同面临的现实困境。开发者最初选择 SDD,是希望依靠标准化规约,让 AI 编程流程变得可控、可预判,而规约频繁失效的现状,让这份期待不断落空。也正因如此,全新的事实优先思路开始受到关注,这套方案不仅能规避规约失效问题,还配套了完整的落地流程,一次部署就能长期适配大模型迭代。
目前主流 SDD 配套工具均为免费开源项目,整个生态规模十分庞大。GitHub 推出的 Spec Kit 星标数量约 9 万,亚马逊打造的 Kiro 强制规范 EARS 编写格式,OpenSpec 半年内星标实现三位数增长,BMAD 星标接近 5 万。四款核心工具叠加周边项目,整个 SDD 生态的 GitHub 总星标已经突破 20 万,足以看出这项技术曾经的行业影响力。
二、核心逻辑拆解,看懂规约失效与事实优先的本质对照实测:两种产物面对模型迭代的不同表现SDD 的设计初衷十分合理,依靠结构化书面语言定义接口、业务逻辑,本意是给大模型划定清晰的执行边界。但实测结果展现出巨大反差,纯文本规约高度依赖大模型的阅读理解能力,模型每一次版本升级,解读逻辑都会产生偏移,只能反复调整内容适配新模型。而可执行测试用例不依赖模型解读,依托程序运行环境判定结果,即便底层模型持续更新,自身功能也不会受到影响。这组鲜明对比,也让业内开始深挖 SDD 底层存在的问题。
LLM 非确定性:规约失效的底层根源即便将大模型温度参数设置为 0,也就是业内公认的确定性运行模式,非确定性问题依旧无法消除。独立研究数据显示,完全相同的提示词在确定性模式下,依旧会产生八十种不同的输出结果。
这类问题来源于技术底层,浮点运算结合律、批次调度机制、融合注意力内核等算法与硬件层面的特性,是无法依靠优化书面文字来解决的。IBM 针对金融领域 RAG 流程开展专项测试,参数规模超 1000 亿的大模型,仅有 12.5% 的运行次数能输出完全一致的内容;反观 70 亿至 80 亿参数的中小模型,输出稳定性反而更突出。这个结论直接推翻了 “等待模型能力变强,规约就能正常使用” 的固有想法。
不同厂商的大模型还存在解读差异,同一套书面规约,在不同模型中会出现不同理解,无法实现跨平台通用。如今行业还普遍出现规约漂移现象,原理和数据库字段漂移类似,同一套规约在不同时间、不同模型下,生成的代码存在明显偏差。Spec Kit 甚至专门上线了应对规约漂移的专属命令,这也侧面证明,规约漂移已经成为线上运维的普遍风险。
核心区别:书面规约 vs 可执行事实书面规约本质上是对大模型行为的预判,而非固定不变的技术契约。大模型读取自然语言,相当于从概率分布中抽取解读结果,就像不同员工解读同一份办公文件会产生分歧,模型每一次调用,解读逻辑都可能出现变化。
可执行事实则是机器能够直接校验的断言,典型场景为 “过期 JWT 令牌访问接口,必须返回 401 状态码”。这类内容不需要大模型参与解读,依靠程序运行后的退出码、执行结果判定对错,只有通过和失败两种结果,不存在模棱两可的空间。
事实优先并非全新概念,它融合了过去 57 年的经典技术体系。1969 年诞生的霍尔三元组、1992 年推出的契约式设计、2000 年兴起的属性测试,再到如今 AI 时代的智能体行为契约,核心逻辑一脉相承,全部依靠机器自动化校验,摆脱人工解读的不确定性。瑞典某车企的生产项目中,6 万行 Erlang 业务代码,仅依靠 450 行属性测试用例,就排查出 25 个传统测试难以发现的并发漏洞,测试代码与业务代码比例达到 1:133,充分验证了这套方案的实战价值。
实操代码:可执行断言示例Python 接口测试代码(校验 JWT 过期返回 401)import requests
def test_expired_jwt_return_401():
# 模拟过期的JWT令牌
expired_token = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.xxxx.expired"
headers = {"Authorization": f"Bearer {expired_token}"}
# 调用刷新令牌接口
res = requests.get("/auth/refresh", headers=headers)
# 可执行断言:状态码必须为401
assert res.status_code == 401, "过期令牌未返回401错误"
if __name__ == "__main__":
test_expired_jwt_return_401()
print("事实校验通过")Shell 校验脚本(依靠退出码判定结果)#!/bin/bash
# 执行测试脚本,通过退出码判断结果
python test_auth.py
if [ $? -eq 0 ]; then
echo "接口规则校验成功"
exit 0
else
echo "接口规则校验失败"
exit 1
fi全流程落地:90 天三阶段迁移方案整套迁移方案分为三个 30 天阶段,全程不影响线上业务,分步骤平稳切换,每个阶段都有明确的工作内容与产出目标。
阶段一 第 1-30 天 全面审计盘点工作人员梳理项目内所有书面规约,将文件划分为三类。第一类是用于对外审计、跨团队查阅、新人学习的规约,予以保留,继续使用 SDD 模式;第二类是长期无人打开查阅的废弃文档,标记为待下线内容;第三类是授权、支付、数据同步等高风险接口中,仅依靠书面规则约束的隐性逻辑。团队可借助智能工具逆向解析业务代码,梳理出运行时固定规则。 本阶段最终产出完整的待落地事实清单、待废弃规约清单。
阶段二 第 31-60 天 功能切换过渡将原有接口契约、数据规则、属性约束,统一转化为可执行测试用例。接口契约替换为契约测试,数据模型约束改为运行时断言,同时调整测试架构,减少传统单元测试占比,提升契约测试与集成测试的比重。 新功能采用双轨运行模式,规约和可执行事实并行使用 30 天,对比运行效果保障业务稳定。 本阶段最终完成十大核心高风险接口的规则转化,所有规则均可通过命令行自动校验。
阶段三 第 61-90 天 流水线强约束把事实校验设置为 CI 流水线的强制关卡,校验不通过则禁止代码合并。新功能开发遵循先编写失败用例、再实现业务功能的模式。逐步下线合规、协作场景之外的冗余书面规约,仅保留审计、跨团队协作所需文档。 相比解析长篇自然语言规约,可执行事实校验消耗的 token 更少,能够直接降低大模型调用的使用成本。 本阶段实现事实优先 CI 流程正式上线,存量业务平稳完成技术切换。
三、辩证看待两种方案,分清适用边界才是关键正视价值,SDD 依旧有不可替代的使用场景SDD 出现热度下滑,并不代表这项技术彻底失去价值,在特定场景中,书面规约依旧是刚需,无法被可执行测试替代。
第一类是合规监管领域。航空、汽车、人工智能等行业都有严格的法规约束,欧洲 AI 法案明确规定,违规企业最高可处以 1.35 亿元人民币罚款,或是按照全球营收的 3% 进行处罚。这类场景下,结构化书面规约是法定审计凭证,流程与文档规范本身就是工作核心目标。
第二类是大型跨团队协作场景。不少企业拥有数十个团队、数百名工程师协同开发,书面规约是多方达成业务共识的核心载体。知名支付服务商落地契约文档后,服务稳定性提升 80%,足以体现规约在协作中的重要作用。
第三类是新人入职与知识传递。测试用例偏向机器可读,缺少业务逻辑的文字解释,新员工想要理解产品设计思路、业务背景,依旧需要依靠书面规约完成学习。
理性取舍,两类技术不存在绝对优劣目前行业存在两种极端认知,一部分开发者盲目追捧 SDD,认为它可以适配所有 AI 开发场景;还有一部分人看到规约失效问题后,直接全盘否定这套技术。实际上规约驱动开发与事实优先方案各有分工,不存在绝对的优劣之分。
团队可以按照统一标准做技术选择:如果一份文档需要审计人员、外部合作方、新员工等外部人员阅读,就保留规约驱动模式;如果内容仅用于内部流水线校验、保障代码运行稳定,就切换为事实优先模式。开发者可以对照自身代码仓库,区分不同文件的使用场景,做到按需选用。
复盘热潮,技术迭代背后的行业规律SDD 十个月内快速崛起,又在行业巅峰期开始降温,这样的发展轨迹在技术圈并不陌生。早年的重型面向切面编程框架、单体企业服务总线,都经历过相似的过程。当一项技术快速完成工业化普及、配套工具全面落地时,往往意味着其底层核心假设已经开始暴露缺陷。
对于技术从业者而言,不必盲目跟风热门技术,也不要一味抗拒新技术。看清技术的底层逻辑、适用边界,结合自身业务场景做选择,才是长久发展之道。当下的 SDD 并非被行业淘汰,而是褪去热度,回归到合理的应用范围之内。
四、落地新思路,为开发团队带来多重现实价值降本提效,解决团队长期运维痛点文档反复修改、大模型调用成本偏高、模型升级引发线上故障,是多数开发团队长期面临的难题。切换为事实优先模式后,可执行规则一次编写,后续无论大模型如何迭代都无需改动,大幅削减文档维护的人力投入。
同时自动化校验不需要解析长篇自然语言规约,token 消耗量明显下降,直接降低 AI 服务的使用开销。从线上稳定性来看,用程序硬校验替代模型解读,能够有效规避规约漂移带来的隐性漏洞,减少线上故障的发生频次。
根基扎实,新技术传承经典技术理念事实优先模式并非凭空诞生的新概念,它整合了近六十年形式化验证、契约式编程、属性测试等经过大量实战检验的经典技术。这些技术在传统软件开发领域,已经充分验证了稳定性与实用性,如今结合 AI 编程场景重新落地,相当于为 AI 开发搭建起成熟可靠的安全底座。和单纯依赖大模型解读的新模式相比,这套方案技术根基更稳固,长期演进的可靠性也更有保障。
思路转变,适配 AI 时代的开发架构当下 AI 大模型始终处于快速迭代状态,版本更新、能力变化成为常态,传统依靠固定文本约束模型的思路,已经难以适配行业节奏。事实优先的核心逻辑,是将可变的模型解读环节剥离出去,用不会改变的机器执行规则守住业务底线。
这也为 AI 原生开发架构指明了新方向:让大模型专注于代码生成等辅助工作,把业务逻辑校验权交还给程序本身,二者各司其职、协同运行,构建出更加稳健的开发架构。
五、互动交流,聊聊你的团队技术选型AI 编程浪潮之下,规约驱动开发与事实优先方案的取舍,已经成为行业热议话题。结合日常工作场景,欢迎分享你的想法与实战经历。
你的团队目前是否在使用规约驱动开发相关工具?有没有遇到模型升级后规约失效、文档反复修改的问题?看完 90 天迁移方案后,你是否打算从核心接口入手,尝试落地可执行事实校验?在合规、跨团队协作等场景中,你认为规约驱动开发还能发挥哪些独特价值?欢迎在评论区留言交流,一起探讨 AI 开发领域的技术选型思路。