强调不做大模型的火山引擎，凭什么拿下七成大模型客户？

在3月18日的2023火山引擎原力大会上，火山引擎宣布了不做大模型，要做好服务大模型客户的工作，目前已经有七成大模型厂商选择了在火山引擎上训练模型，那么火山引擎是怎么做到这一点的？其经过抖音这个超级应用验证过的能力与优势究竟是什么？其总裁谭待的讲话或许会给我们带来不少的启发：

各位在座的领导，专家，伙伴们，还有线上收看直播的朋友们，大家好，我是火山引擎总裁谭待。欢迎大家参加2023火山引擎原力大会。Force，也就是原力，经常在电影中被解释为无处不在的神秘力量。火山引擎选择“原力”作为大会品牌，正是秉承“云上增长”的理念，希望帮助每一个企业将自身的数字力量激发出来，获得增长。

今天也是走出疫情后，火山引擎的第一场市场大会。去年4月的上海，疫情封控还是热搜话题；而2023年的4月，整个城市又已经又车水马龙，完全恢复了活力。所有人都在关心如何重回增长。另一方面，以最近风起云涌的大模型技术为代表，新技术带来的效率革新就在眼前。如何在不确定的环境中找到确定性的增长？我们认为，企业还是要回归到本质，修炼好内功。去年我们提出的，敏捷迭代、数据驱动和体验创新，依然是云上增长的三个核心要素，也是企业增长需要构建的三个核心能力。接下来一个多小时里，我会给大家汇报火山在这三个方向的进展，火山又提供了哪些能力，有哪些标杆客户和火山产生了化学反应，以及大模型技术会在这些层面带来哪些影响。

首先还是从敏捷迭代开始谈起。

天下武功，唯快不破。现在市场上有很多概念，比如数字化转型，比如数实融合，但不管怎样，在数字化世界里快速开发、快速迭代都是关键。而要做好这一点，有三个关键步骤：

首先是坚定上云。云的弹性，不仅能够帮助企业降低成本，也能大幅降低创新所需要的等待时间。尤其是大模型时代，训练和托管大模型都会带来大量的成本开销，继而带来巨大的价值不确定性。选择上云，是这个问题的最优解。

其次，要根据企业自身特点设计好对应的分布式云架构。做好多云策略，平衡好中心云和边缘云的负载，真正做到“用好云”。

最后，就是做好云上智能创新，拿到敏捷迭代的果实。我们看云的产品演进，从IAAS到PAAS，到Serverless和低代码；再到现在Model As a Service，也是这一路径的最好说明。

要坚定好企业上云的决心，对云厂商来说最重要的就是要便宜，而且是可持续的便宜。在这方面，火山引擎具有以下三大优势：

一是资源复用，目前字节国内业务拥有过亿核CPU资源池、数十EB的企业存储。以此为基础，火山通过充分和抖音进行并池和混布，分钟级可调度十万级核CPU，实现更极致的弹性和性价比；

二是全面云原生化，字节内部计算体系已经实现超过95%的容器化，并且基于云原生实现了超大规模存储池化。这些技术能帮助客户通过云原生进一步用好云的弹性，并且通过业务混布提升资源利用率。

三是坚持全栈自研，包括自研服务器，自研OS，自研虚拟网络，自研mGPU技术等，将部署密度提升超过500%，为上层应用带来更高资源利用率。

今天，我为大家介绍火山引擎全栈自研的一个新核心组件，火山引擎DPU。

云计算本质，是资源池化和软件定义，但随着云基础设施规模越来越大，计算、存储、网络的虚拟化损耗始终占据10-20%的额外开销。要想提供更便宜的云服务，必须解决好这部分额外开销，把cpu和gpu释放到更关键的业务负载里。这就是火山要做DPU的原因。

火山引擎DPU，采取了从硬件到软件的全栈自主研发理念，并基于DPU实现了新一代RDMA网络，以及软硬一体的Hypervisor层，整体网络性能升级到5000万pps转发能力，20us延迟，处于业界领先地位。目前，我们在内部已经实现上万台DPU的部署，并且将持续提升渗透率。

基于自研DPU，火山引擎也同步推出新一代服务器实例，实现整体性能大幅提升。具体包括：

DPU+Intel全新一代SPR CPU平台的计算实例，整机性能最高提升93%，单核性能最高提升13%。小规格实例性能最高提升6倍以上。

DPU+AMD全新一代Genoa CPU平台的计算实例：整机性能最高提升138%，单核性能最高提升39%。小规格实例性能最高提升10倍以上。

DPU+Nvidia A800 裸金属实例：更加适用于大模型等大规模集群分布式训练场景，相较于上一代实例集群性能最高提升3倍以上。

火山引擎将全面基于DPU构造大规模算力中心，形成DPU+CPU+GPU的混合算力体系.

除了自研能力带来的极致性能以外，通过规模化优势为客户带来更多“实惠”也是火山引擎一直努力的方向。今天我们也正式发布火山引擎SPOT实例。

火山SPOT实例，不仅可以实现常规云计算竞价实例的特性，还可以通过与抖音潮汐资源的混布，进一步降低运营成本。相比普通计算实例，火山引擎SPOT实例价格最高减少 80%，有效降低企业上云使用成本.

云计算带来的敏捷、弹性正在快速改变着各行各业的迭代速度。制药作为传统悠久的行业也在积极拥抱云计算，有请晶泰科技联合创始人兼CEO马健先生，给我们分享制药，这个过去以十几年为产品开发周期的行业，将如何实现基于云计算的敏捷迭代。

感谢马健先生的精彩分享，我们看到，结合自身的业务形态，晶泰构建了一套精心设计的多云系统架构，有效实现了AI制药的敏捷迭代；这也是值得更多企业来学习和借鉴的。

每年，我们都会分享火山自身和第三方研究机构对企业用云现状的调研。2022年，火山引擎对超过4500个云消耗大于100万的企业进行调研，使用多云架构的企业占比达到88%，达到历史新高。另一方面，根据麦肯锡的报告，到2025年，依然会有42%的企业保留有私有云。在负载分布层面，边缘云占比在逐步上升，根据IDC报告，25年超过30%的数据需要边缘实时处理。造成这些现象背后的原因是复杂的，既有业务形态和成本管控的原因，也有数据安全和监管要求的原因。对于企业来说，必须要有能力来解决好这一分布式多云体系带来的挑战。

企业如何建设好分布式云？我们认为需要解决好三个问题，

一是从单一公共云架构向多公共云架构升级，降本增效。

二是从传统私有云架构向混合云架构升级，既能保障数据安全也能享受云的弹性。

三是基于“算力靠近数据”的理念，形成覆盖1-40ms不同延时的架构方案，包括现场边缘、近场边缘和云边缘的体系化架构。

火山引擎是中国最懂多云和分布式云的云计算公司。为什么这么说呢？因为字节跳动成立11年以来，内部使用过全球每一朵公有云服务和边缘云服务，形成了一整套完整的分布式云管理体系和架构实践。今天，火山引擎将发布4件“利器”，助力企业建设好分布式云。让我们来一一揭晓：

首先，火山引擎正式发布分布式云原生平台。该平台通过火山自研的联邦引擎，提供面向多云/混合云/边缘云场景的云原生管理能力，可以连接并管理用户任何地域、任何基础设施上的Kubernetes集群。

火山分布式云原生平台，经历过超大规模验证，能够支持超过20万节点，千万级核的使用场景。使用火山分布式云原生平台之后，不论企业的应用是构建在火山引擎云上、第三方云上，IDC 私有云上还是边缘云上，都可以实现集群资源与权限的统一管理，实施应用跨集群分发和故障迁移，达到跨云一致体验。

面向边缘场景，火山引擎正式发布多云CDN管理平台。火山的多云CDN平台，是基于字节数百TB带宽，十多家CDN厂商实操经验构建而成；为企业客户在多云场景下提供CDN智能容灾、质量优化、成本管理、运维优化等综合管控能力，帮助企业用好多云CDN。当前我们已经为行业多家客户提供了相关服务，根据邀测结果表明，该平台能有效降低运维管理投入50%，并进一步降低CDN的支出成本10%。

多云的异构型，对安全也带来更多挑战。安全事件难管理、安全漏洞难处置、防护资产不清晰、安全加固难统一，是多云安全的核心痛点。今天，火山引擎正式发布全栈多云安全平台，为企业提供SaaS化的多云安全管理服务。火山多云安全平台，本身具备轻量化、跨云支持和利旧兼容等特性。能够在多云环境下统一管理资产、服务、告警、身份四要素，帮助企业能够高效、统一的实现多云安全运营，多云安全运维和多云数据共享。护网、合规、数据防泄露，一站式解决。

最后，面向公有云和私有云长期并存的场景，火山引擎正式推出混合云平台：veStack。

veStack采取和火山公有云完全同源的架构设计，主要有三个方面的优势：

首先，是更高的性能。与传统私有云相比，veStack可以实现更高的资源利用率，搭配火山DPU后带来的性能提升，让裸金属资源利用率达到100%。

其次，是敏捷性。最小只需要10台物理机，就可搭建起vestack全栈服务。并且扩展性极佳，单Region支持扩容到10万台物理机。

最后，通过与火山公有云的同源设计，vestack可以实现云上云下能力统一、体验统一、管理统一。

此外，veStack也支持多种异构存储协议；兼容一云多芯，支持海光、鲲鹏等国产芯片服务器，助力金融、政企客户应对业务迁移挑战和信创合规要求。

新网银行是全国三家互联网银行之一，请看新网银行如何携手火山引擎，通过vestack共建未来云底座。

坚定上云，用好分布式云，下一步就是做好云上创新，这就不得不谈大模型推动的智能化浪潮。我们看到两个非常显著的现象：

第一，是多模态基础大模型的风起云涌。随着chatGPT 、GPT4的推出，国内的大模型创新公司也在奋力追赶。在这方面，火山引擎支持了Minimax、智谱、昆仑万维等大模型服务商在模型训练和应用领域的快速发展，国内绝大部分大模型创业公司，也都在深度的使用火山引擎；

第二，是大模型在垂直行业的加速应用。在智能驾驶领域，我们与智能驾驶服务商、造车新势力和主机厂进行了广泛合作，基于公共云进行超大规模的自动驾驶算法训练。生物科技领域，我们与行业客户进行了生信PaaS的联合共创，推动生信科研加速发展。金融领域，我们与不同类型的金融机构进行FinOps、智能风控、个性化推荐等云上AI创新。

就像多云是既成事实一样，多模型也一定会是未来趋势，多云多模型是长期的it格局。对于火山而言，在多云多模型的时代服务好模型企业和应用企业，是我们的关键使命。因此，今天火山引擎也正式推出两款升级产品：

第一个产品，是面向推荐场景的高速训练引擎。个性化推荐是移动互联网最重要的交互方式。但随着数据沉淀，越来越多的企业面临大规模稀疏模型的训练性能问题，导致模型更新缓慢影响线上效果。这也是我们推出高速训练引擎要解决的原因，它具备以下特点：

第一，采取了软硬一体优化设计，支持100GB-10TB+超大模型的高效训练

其次，实现高可用PS-Worker架构，支持 PS、Chief、Worker 全方位容错

第三，数据安全：企业只需要传输高度脱敏后的训练样本，保障数据安全

最后是高性价比：支持多种模型瘦身技术、支持多种GPU模式，训练加速比10倍以上，综合成本可降低25%~67%。

再来看机器学习。去年7月，火山引擎正式发布了机器学习平台，凭借0碎片的极致性能和优秀的开发体验，至今已经服务了诸多智能驾驶、AI制药和大模型客户。今天我们也正式带来三个重要升级点：

第一，是全新的实验管理-模型效果对比功能：仅需极少代码改动，用户就可以通过该功能实时跟踪和对比训练效果，观察趋势，加速模型迭代

第二，全新支持了弹性实例：实现灵活资源调度，随用随取，成本节省达70%

最后也是最重要的，平台针对大模型训练场景进行了全面优化：目前平台可以支持万卡级别大模型训练场景，微秒级超低延时网络，让大模型训练更稳更快。

众力资讯网

强调不做大模型的火山引擎，凭什么拿下七成大模型客户？

秋水笔弹