上周跟一个在做出海AI产品的朋友吃饭，他跟我聊起来一件事。他们前段时间在做一个面

上周跟一个在做出海AI产品的朋友吃饭，他跟我聊起来一件事。

他们前段时间在做一个面向东南亚市场的AI工具，核心功能是实时生成商品图，类似于电商试衣间那种。

产品很不错，新加坡和雅加达的早期用户反馈都挺好。

但最近他们遇到了一个问题，日均调用量上来之后，每个月云账单里出站流量费比他们预期的贵了整整两倍多。

查了一下原因，是因为他们的推理节点在美国东部，每次东南亚用户发起请求，数据要从美国东部的服务器绕半个地球回来。

他来问我，有没有什么办法把这块成本压下来？但在我看来，这个问题确实应该提早一点发现的。

1我观察过一段时间，大多数AI创业团队在选算力方案的时候，总是觉得反正先跑起来，用大家都熟悉的那套。

当然这个思路早期做产品当然没什么问题，快速完成市场验证，是完全合理的。

但当产品已经成型，用户量也比较大的时候，会发现迁移成本非常高。而且团队也没有精力重新做一遍选型，于是就延用最初的方案。一张H100，算上GCP或者AWS的计算费、出站流量费、存储费，每个月实际支出往往比单纯看卡的报价高出40%到60%。

我朋友那个情况不是个例，因为我认识的好几个做出海AI产品的团队，都是在产品比较成熟的阶段遇上了这个问题。

2我最近刚好看到Akamai做了一个推理算力的方案，说起来跟这件事有点关系，我研究了一下。

因为我一开始对这个品牌的印象还停留在CDN和安全，没想到它在AI这块已经走到这一步了。

聊这个话题之前，我们要先聊一个前置问题，就是为什么AI推理跟训练不一样，它对节点位置的要求要高得多？

训练可以是一次性的事情，你把集群拉起来，跑几周，结果出来就关掉。训练节点在哪里，对用户来说感知不到。

但推理是每一次用户交互都在发生的事情，用户每发起一个请求，模型要给出一个响应，这个来回的时间，会直接影响用户的使用感受。如果推理节点在美国东部，而你的用户在雅加达，物理上的网络延迟是无法压缩的，光速就是上限。

Akamai CEO Tom Leighton说过一句话：AI的下一波浪潮，需要的是和互联网当年一样的东西——计算离用户足够近。

这个逻辑，其实和当年CDN要把内容推到离用户最近的边缘节点，是完全一样的道理。只不过现在推的不是静态资源，而是AI的决策过程本身。

所以Akamai现在做的事，是把做了二十多年的那套边缘分发逻辑，重新用在了AI推理这件事上。

他们在今年推出Akamai AI 推理云平台，将NVIDIA RTX PRO 6000 GPU分布至全球 19 个数据中心节点，覆盖新加坡、东京、雅加达、孟买、法兰克福、洛杉矶等，AI推理就跑在离用户最近的城市。

3我朋友听完这个之后问我，那这张卡性能够用吗？毕竟大家都说H100才是业界标准。

H100是业界标杆，当然没问题。它的设计重心就是在训练，而且是数据中心级别的训练卡，支持NVLink互联、跑千亿参数级别的分布式训练，所以它在这件事上是无可争议的。

但如果你的场景是推理，逻辑则完全不同。因为推理需要的是大显存装下模型、高吞吐稳定出token、节点离用户够近。H100在这个场景里，贵，但并不是最优解。

英伟达自己也意识到了这一点，2026年正在积极推动RTX PRO 4500/6000等系列在中低端及边缘AI应用市场的布局，预计带动中低端产品占整体出货比例突破32%。

这个信号很清楚：推理市场的算力结构正在分层，高端训练卡和推理专用卡的分工越来越明确。

RTX PRO 6000 Blackwell，是英伟达最新一代的专业级推理卡，96GB GDDR7显存，专为企业级AI推理工作负载设计。

30B到70B的推理模型，比如Llama 3.3 70B、Qwen3-72B，在NVFP4量化之后只需要约35GB显存放在这张卡上单卡就能跑，不需要多卡拼接，运维复杂度直接降一个量级。

从实测数据来看，跑Llama 3.3 70B，每百万Token的推理成本比H100低约28%，吞吐量还高出不少。

4出海AI公司的真实账单里，有一个隐藏的大头，就是出站流量费。

AWS的标准出网流量费，每GB在0.09美元左右，高流量业务跑起来，一个月光流量费就能烧掉好几万美元。Akamai把这块费用压到了每GB 0.005美元，差了18倍。

以高并发场景为例，同样的一美元，在高并发下Akamai可以处理约567万个Token，GCP同等条件下只能处理约265万个。

2026年3月的NVIDIA GTC大会上，Akamai宣布构建业界首个全球规模的NVIDIA AI Grid实施方案，目标是将AI推理推向更接近终端用户的位置，同时降低延迟和成本。

这个布局背后有一个大的行业逻辑：AI应用正在从实验室走向生产环境，从一个数据中心走向全球分布式部署。训练可以集中在几个超大数据中心完成，但推理必须分散到每一个有用户的城市。

对于正在做新产品、或者正在上线新模型的团队来说，这个时间节点或许是最合适做选型决策的。

如果你的业务场景是跑30B到70B的推理模型，用户分布在亚太、欧洲、北美，需要低延迟和可控成本，那么现在这个问题已经有了比两年前好得多的解法。

众力资讯网