上周跟一个在做出海AI产品的朋友吃饭,他跟我聊起来一件事。
他们前段时间在做一个面向东南亚市场的AI工具,核心功能是实时生成商品图,类似于电商试衣间那种。
产品很不错,新加坡和雅加达的早期用户反馈都挺好。
但最近他们遇到了一个问题,日均调用量上来之后,每个月云账单里出站流量费比他们预期的贵了整整两倍多。
查了一下原因,是因为他们的推理节点在美国东部,每次东南亚用户发起请求,数据要从美国东部的服务器绕半个地球回来。
他来问我,有没有什么办法把这块成本压下来?但在我看来,这个问题确实应该提早一点发现的。
1我观察过一段时间,大多数AI创业团队在选算力方案的时候,总是觉得反正先跑起来,用大家都熟悉的那套。
当然这个思路早期做产品当然没什么问题,快速完成市场验证,是完全合理的。
但当产品已经成型,用户量也比较大的时候,会发现迁移成本非常高。而且团队也没有精力重新做一遍选型,于是就延用最初的方案。一张H100,算上GCP或者AWS的计算费、出站流量费、存储费,每个月实际支出往往比单纯看卡的报价高出40%到60%。
我朋友那个情况不是个例,因为我认识的好几个做出海AI产品的团队,都是在产品比较成熟的阶段遇上了这个问题。
2我最近刚好看到Akamai做了一个推理算力的方案,说起来跟这件事有点关系,我研究了一下。
因为我一开始对这个品牌的印象还停留在CDN和安全,没想到它在AI这块已经走到这一步了。
聊这个话题之前,我们要先聊一个前置问题,就是为什么AI推理跟训练不一样,它对节点位置的要求要高得多?
训练可以是一次性的事情,你把集群拉起来,跑几周,结果出来就关掉。训练节点在哪里,对用户来说感知不到。
但推理是每一次用户交互都在发生的事情,用户每发起一个请求,模型要给出一个响应,这个来回的时间,会直接影响用户的使用感受。如果推理节点在美国东部,而你的用户在雅加达,物理上的网络延迟是无法压缩的,光速就是上限。
Akamai CEO Tom Leighton说过一句话:AI的下一波浪潮,需要的是和互联网当年一样的东西——计算离用户足够近。
这个逻辑,其实和当年CDN要把内容推到离用户最近的边缘节点,是完全一样的道理。只不过现在推的不是静态资源,而是AI的决策过程本身。
所以Akamai现在做的事,是把做了二十多年的那套边缘分发逻辑,重新用在了AI推理这件事上。
他们在今年推出Akamai AI 推理云平台,将NVIDIA RTX PRO 6000 GPU分布至全球 19 个数据中心节点,覆盖新加坡、东京、雅加达、孟买、法兰克福、洛杉矶等,AI推理就跑在离用户最近的城市。
3我朋友听完这个之后问我,那这张卡性能够用吗?毕竟大家都说H100才是业界标准。
H100是业界标杆,当然没问题。它的设计重心就是在训练,而且是数据中心级别的训练卡,支持NVLink互联、跑千亿参数级别的分布式训练,所以它在这件事上是无可争议的。
但如果你的场景是推理,逻辑则完全不同。因为推理需要的是大显存装下模型、高吞吐稳定出token、节点离用户够近。H100在这个场景里,贵,但并不是最优解。
英伟达自己也意识到了这一点,2026年正在积极推动RTX PRO 4500/6000等系列在中低端及边缘AI应用市场的布局,预计带动中低端产品占整体出货比例突破32%。
这个信号很清楚:推理市场的算力结构正在分层,高端训练卡和推理专用卡的分工越来越明确。
RTX PRO 6000 Blackwell,是英伟达最新一代的专业级推理卡,96GB GDDR7显存,专为企业级AI推理工作负载设计。
30B到70B的推理模型,比如Llama 3.3 70B、Qwen3-72B,在NVFP4量化之后只需要约35GB显存放在这张卡上单卡就能跑,不需要多卡拼接,运维复杂度直接降一个量级。
从实测数据来看,跑Llama 3.3 70B,每百万Token的推理成本比H100低约28%,吞吐量还高出不少。
4出海AI公司的真实账单里,有一个隐藏的大头,就是出站流量费。
AWS的标准出网流量费,每GB在0.09美元左右,高流量业务跑起来,一个月光流量费就能烧掉好几万美元。Akamai把这块费用压到了每GB 0.005美元,差了18倍。
以高并发场景为例,同样的一美元,在高并发下Akamai可以处理约567万个Token,GCP同等条件下只能处理约265万个。
2026年3月的NVIDIA GTC大会上,Akamai宣布构建业界首个全球规模的NVIDIA AI Grid实施方案,目标是将AI推理推向更接近终端用户的位置,同时降低延迟和成本。
这个布局背后有一个大的行业逻辑:AI应用正在从实验室走向生产环境,从一个数据中心走向全球分布式部署。训练可以集中在几个超大数据中心完成,但推理必须分散到每一个有用户的城市。
对于正在做新产品、或者正在上线新模型的团队来说,这个时间节点或许是最合适做选型决策的。
如果你的业务场景是跑30B到70B的推理模型,用户分布在亚太、欧洲、北美,需要低延迟和可控成本,那么现在这个问题已经有了比两年前好得多的解法。