众力资讯网

Token烧得越多,价值就越大吗?我这两天看了一期播客,请来了微软CEO纳德拉。

Token烧得越多,价值就越大吗?

我这两天看了一期播客,请来了微软CEO纳德拉。

他聊到AI智能体管理时,说自己经常同时跑100个AI编程智能体,结果管理的认知负荷高到快崩溃。他不确定,这些智能体到底干了多少有用的事。

所有在关注AI落地的朋友,都建议去了解一下这个话题,它可能会刷新你对AI价值衡量的认知。

先说个背景,现在AI行业里最通行的度量衡是Token消耗量。模型每处理一次请求、每生成一段内容,都会消耗Token。

很多公司内部甚至搞排行榜,鼓励员工多用多刷。

这套逻辑听上去合理,但今年上半年发生了一连串事情,让很多人开始怀疑这个标尺本身是不是出了问题。

我花了点时间把几个案例摆在一起看,发现了一件事:大厂们几乎在同一时间踩了刹车。

Uber的工程师四个月烧完了全年AI预算,然后Uber的COO出来说了一句,大意是Token消耗量跟最终发布了多少有价值的产品之间,看不到明显的线性关系。

亚马逊内部搞了个AI使用排行榜,员工为了冲排名疯狂刷Token,执行大量根本没有实际价值的任务,后来不得不把排行榜直接撤了。

Meta也类似,内部建了Claude使用排行榜后,单月消耗数十亿Token,最后收紧激励,转向关注实际产出。

微软自己也在收缩,公开说vibe coding的Token成本已经比雇人还贵,甚至砍掉了部分部门的授权。

单独看每一个案例,你可以说是管理问题、预算问题。

但当这么多家公司几乎在同一时间做出同一个方向的调整,我觉得这已经不是个案了。

它指向的是一个更底层的判断——Token消耗量这把尺子,量不出AI的真实价值。

 

道理其实不复杂,Token衡量的是投入,不是产出。

就好比你不能拿一家公司的电费账单来判断它到底赚了多少钱,烧了多少Token和创造了多少价值之间,隔着很远的距离。

 

但让我更好奇的,是如果Token失效了,该拿什么来替代。

前段时间看到纽约时报有一篇关于Anthropic的长报道,里面有两张图放在一起特别有意思。

一张是Anthropic在OpenRouter平台上的Token消耗份额,持续下滑;另一张是同期它的营收曲线,大幅攀升。一个跌一个涨,两条反向的线。

 

如果Token消耗量真的等于商业价值,这两条线不应该是反着走的,但事实就是反着的。

这说明,行业正在进入一个用更少Token交付更多价值的阶段,Token作为度量衡已经开始失灵了。

宏观策略师Andreas Steno Larsen也分享过一个数据,LLM Token支出指数在经历了半年暴涨之后,近期开始明显回落。

 

他的判断是,如果Token定价持续走弱,从GPU到内存芯片再到数据中心,整条投资链都可能面临重估。

当前这轮AI投资热潮有相当大一部分是建立在Token持续便宜这个假设之上的,一旦这个前提松动,地基就会晃。

这些信号叠在一起,我的一个感受是:Token不是不重要,但它能讲的故事快讲完了,行业需要一把新的尺子。

 

恰好在这个节点上,今年5月百度Create2026大会上李彦宏提了一个概念叫DAA,Daily Active Agents,日活智能体数,它切中的恰好是Token度量衡解决不了的那个问题。

 

DAA关注的不是消耗了多少Token,而是每天有多少个智能体在真实场景里完成了至少一次任务闭环。不是模型被调用了多少次,是确确实实帮人把事办了、把结果交付了。

再回头看纳德拉的那番话就更有意思了,他说AI智能体应该像员工一样被对待,要有身份、有权限、有沙盒、有审计,微软专门推出了Agent 365套件来做这件事。

你想想他要解决的问题本质是什么?

就是搞清楚这些智能体到底有没有在干活,干的活有没有价值,怎么追踪,怎么评估,这跟DAA要回答的其实是同一个命题。

纳德拉站在治理的角度说我要管好它们,李彦宏站在度量的角度说我们该看它们交付了什么。

一个管理侧,一个价值侧,指向同一个方向。

当然,DAA这个概念现在还很早期,怎么定义任务闭环,怎么区分有效任务和无效任务,不同行业的标准怎么统一,这些问题都还没有成熟的答案。

但在这个时间节点回头看,我觉得方向比精度更重要。Token衡量的是烧了多少,DAA试图回答的是做成了什么。从投入侧转向产出侧,这个转变本身就值得认真对待。

真正有生命力的度量衡,从来不是被发明出来的,它一定是行业演进到某个阶段后,所有人同时意识到自己需要它。

Token的故事还在继续,但关于它的局限性,共识正在快速形成。

而DAA,也许就是那把行业在找的尺子。