【AI降本提效新趋势:思维链蒸馏】
最近几代AI模型的进化,正在上演一场运算资源的军备竞赛。从o1到R1,模型需要生成数万个token来解决复杂问题;到了o3,这个数字更是暴涨至数十万乃至百万级。更令人咋舌的是,在ARC-AGI测试中,仅用最慢的o3模型完成一个任务,成本就超过3000美元。
但危机中往往蕴含着机遇。我认为“思维链蒸馏”或“横向蒸馏”技术,可能是当下AI领域最具商业价值的突破口。
目前业界已经掌握了“纵向蒸馏”(即大模型到小模型的转化)的成熟方案。而横向蒸馏则开辟了新的方向:我们可以训练模型在连续空间而非离散空间中思考,用更少的输出token达到同样的效果。
这项技术源自《Implicit Chain of Thought Reasoning via Knowledge Distillation》这篇论文。其核心思路颇具创意:通过渐进式移除思维链中的token,训练模型在没有CoT的情况下模仿自身的CoT输出。配合特定的训练计划,这个方法确实行得通。
这为我们指明了方向:谁能率先为o1级别的模型开发出隐式CoT系统,谁就能为整个行业节省数千美元的成本。可以预见,DeepSeek等机构很快就会跟进并改进这项技术。
在AI发展的关键节点,降本提效永远是最实际的突破口。