强调不做大模型的火山引擎,凭什么拿下七成大模型客户?

秋水笔弹 2023-04-19 17:32:31

在3月18日的2023火山引擎原力大会上,火山引擎宣布了不做大模型,要做好服务大模型客户的工作,目前已经有七成大模型厂商选择了在火山引擎上训练模型,那么火山引擎是怎么做到这一点的?其经过抖音这个超级应用验证过的能力与优势究竟是什么?其总裁谭待的讲话或许会给我们带来不少的启发:

各位在座的领导,专家,伙伴们,还有线上收看直播的朋友们,大家好,我是火山引擎总裁谭待。欢迎大家参加2023火山引擎原力大会。Force,也就是原力,经常在电影中被解释为无处不在的神秘力量。火山引擎选择“原力”作为大会品牌,正是秉承“云上增长”的理念,希望帮助每一个企业将自身的数字力量激发出来,获得增长。

今天也是走出疫情后,火山引擎的第一场市场大会。去年4月的上海,疫情封控还是热搜话题;而2023年的4月,整个城市又已经又车水马龙,完全恢复了活力。所有人都在关心如何重回增长。另一方面,以最近风起云涌的大模型技术为代表,新技术带来的效率革新就在眼前。如何在不确定的环境中找到确定性的增长?我们认为,企业还是要回归到本质,修炼好内功。去年我们提出的,敏捷迭代、数据驱动和体验创新,依然是云上增长的三个核心要素,也是企业增长需要构建的三个核心能力。接下来一个多小时里,我会给大家汇报火山在这三个方向的进展,火山又提供了哪些能力,有哪些标杆客户和火山产生了化学反应,以及大模型技术会在这些层面带来哪些影响。

首先还是从敏捷迭代开始谈起。

天下武功,唯快不破。现在市场上有很多概念,比如数字化转型,比如数实融合,但不管怎样,在数字化世界里快速开发、快速迭代都是关键。而要做好这一点,有三个关键步骤:

首先是坚定上云。云的弹性,不仅能够帮助企业降低成本,也能大幅降低创新所需要的等待时间。尤其是大模型时代,训练和托管大模型都会带来大量的成本开销,继而带来巨大的价值不确定性。选择上云,是这个问题的最优解。

其次,要根据企业自身特点设计好对应的分布式云架构。做好多云策略,平衡好中心云和边缘云的负载,真正做到“用好云”。

最后,就是做好云上智能创新,拿到敏捷迭代的果实。我们看云的产品演进,从IAAS到PAAS,到Serverless和低代码;再到现在Model As a Service,也是这一路径的最好说明。

要坚定好企业上云的决心,对云厂商来说最重要的就是要便宜,而且是可持续的便宜。在这方面,火山引擎具有以下三大优势:

一是资源复用,目前字节国内业务拥有过亿核CPU资源池、数十EB的企业存储。以此为基础,火山通过充分和抖音进行并池和混布,分钟级可调度十万级核CPU,实现更极致的弹性和性价比;

二是全面云原生化,字节内部计算体系已经实现超过95%的容器化,并且基于云原生实现了超大规模存储池化。这些技术能帮助客户通过云原生进一步用好云的弹性,并且通过业务混布提升资源利用率。

三是坚持全栈自研,包括自研服务器,自研OS,自研虚拟网络,自研mGPU技术等,将部署密度提升超过500%,为上层应用带来更高资源利用率。

今天,我为大家介绍火山引擎全栈自研的一个新核心组件,火山引擎DPU。

云计算本质,是资源池化和软件定义,但随着云基础设施规模越来越大,计算、存储、网络的虚拟化损耗始终占据10-20%的额外开销。要想提供更便宜的云服务,必须解决好这部分额外开销,把cpu和gpu释放到更关键的业务负载里。这就是火山要做DPU的原因。

火山引擎DPU,采取了从硬件到软件的全栈自主研发理念,并基于DPU实现了新一代RDMA网络,以及软硬一体的Hypervisor层,整体网络性能升级到5000万pps转发能力,20us延迟,处于业界领先地位。目前,我们在内部已经实现上万台DPU的部署,并且将持续提升渗透率。

基于自研DPU,火山引擎也同步推出新一代服务器实例,实现整体性能大幅提升。具体包括:

DPU+Intel全新一代SPR CPU平台的计算实例,整机性能最高提升93%,单核性能最高提升13%。小规格实例性能最高提升6倍以上。

DPU+AMD全新一代Genoa CPU平台的计算实例:整机性能最高提升138%,单核性能最高提升39%。小规格实例性能最高提升10倍以上。

DPU+Nvidia A800 裸金属实例:更加适用于大模型等大规模集群分布式训练场景,相较于上一代实例集群性能最高提升3倍以上。

火山引擎将全面基于DPU构造大规模算力中心,形成DPU+CPU+GPU的混合算力体系.

除了自研能力带来的极致性能以外,通过规模化优势为客户带来更多“实惠”也是火山引擎一直努力的方向。今天我们也正式发布火山引擎SPOT实例。

火山SPOT实例,不仅可以实现常规云计算竞价实例的特性,还可以通过与抖音潮汐资源的混布,进一步降低运营成本。相比普通计算实例,火山引擎SPOT实例价格最高减少 80%,有效降低企业上云使用成本.

云计算带来的敏捷、弹性正在快速改变着各行各业的迭代速度。制药作为传统悠久的行业也在积极拥抱云计算,有请晶泰科技联合创始人兼CEO马健先生,给我们分享制药,这个过去以十几年为产品开发周期的行业,将如何实现基于云计算的敏捷迭代。

感谢马健先生的精彩分享,我们看到,结合自身的业务形态,晶泰构建了一套精心设计的多云系统架构,有效实现了AI制药的敏捷迭代;这也是值得更多企业来学习和借鉴的。

每年,我们都会分享火山自身和第三方研究机构对企业用云现状的调研。2022年,火山引擎对超过4500个云消耗大于100万的企业进行调研,使用多云架构的企业占比达到88%,达到历史新高。另一方面,根据麦肯锡的报告,到2025年,依然会有42%的企业保留有私有云。在负载分布层面,边缘云占比在逐步上升,根据IDC报告,25年超过30%的数据需要边缘实时处理。造成这些现象背后的原因是复杂的,既有业务形态和成本管控的原因,也有数据安全和监管要求的原因。对于企业来说,必须要有能力来解决好这一分布式多云体系带来的挑战。

企业如何建设好分布式云?我们认为需要解决好三个问题,

一是从单一公共云架构向多公共云架构升级,降本增效。

二是从传统私有云架构向混合云架构升级,既能保障数据安全也能享受云的弹性。

三是基于“算力靠近数据”的理念,形成覆盖1-40ms不同延时的架构方案,包括现场边缘、近场边缘和云边缘的体系化架构。

火山引擎是中国最懂多云和分布式云的云计算公司。为什么这么说呢?因为字节跳动成立11年以来,内部使用过全球每一朵公有云服务和边缘云服务,形成了一整套完整的分布式云管理体系和架构实践。今天,火山引擎将发布4件“利器”,助力企业建设好分布式云。让我们来一一揭晓:

首先,火山引擎正式发布分布式云原生平台。该平台通过火山自研的联邦引擎,提供面向多云/混合云/边缘云场景的云原生管理能力,可以连接并管理用户任何地域、任何基础设施上的Kubernetes集群。

火山分布式云原生平台,经历过超大规模验证,能够支持超过20万节点,千万级核的使用场景。使用火山分布式云原生平台之后,不论企业的应用是构建在火山引擎云上、第三方云上,IDC 私有云上还是边缘云上,都可以实现集群资源与权限的统一管理,实施应用跨集群分发和故障迁移,达到跨云一致体验。

面向边缘场景,火山引擎正式发布多云CDN管理平台。火山的多云CDN平台,是基于字节数百TB带宽,十多家CDN厂商实操经验构建而成;为企业客户在多云场景下提供CDN智能容灾、质量优化、成本管理、运维优化等综合管控能力,帮助企业用好多云CDN。当前我们已经为行业多家客户提供了相关服务,根据邀测结果表明,该平台能有效降低运维管理投入50%,并进一步降低CDN的支出成本10%。

多云的异构型,对安全也带来更多挑战。安全事件难管理、安全漏洞难处置、防护资产不清晰、安全加固难统一,是多云安全的核心痛点。今天,火山引擎正式发布全栈多云安全平台,为企业提供SaaS化的多云安全管理服务。火山多云安全平台,本身具备轻量化、跨云支持和利旧兼容等特性。能够在多云环境下统一管理资产、服务、告警、身份四要素,帮助企业能够高效、统一的实现多云安全运营,多云安全运维和多云数据共享。护网、合规、数据防泄露,一站式解决。

最后,面向公有云和私有云长期并存的场景,火山引擎正式推出混合云平台:veStack。

veStack采取和火山公有云完全同源的架构设计,主要有三个方面的优势:

首先,是更高的性能。与传统私有云相比,veStack可以实现更高的资源利用率,搭配火山DPU后带来的性能提升,让裸金属资源利用率达到100%。

其次,是敏捷性。最小只需要10台物理机,就可搭建起vestack全栈服务。并且扩展性极佳,单Region支持扩容到10万台物理机。

最后,通过与火山公有云的同源设计,vestack可以实现云上云下能力统一、体验统一、管理统一。

此外,veStack也支持多种异构存储协议;兼容一云多芯,支持海光、鲲鹏等国产芯片服务器,助力金融、政企客户应对业务迁移挑战和信创合规要求。

新网银行是全国三家互联网银行之一,请看新网银行如何携手火山引擎,通过vestack共建未来云底座。

坚定上云,用好分布式云,下一步就是做好云上创新,这就不得不谈大模型推动的智能化浪潮。我们看到两个非常显著的现象:

第一,是多模态基础大模型的风起云涌。随着chatGPT 、GPT4的推出,国内的大模型创新公司也在奋力追赶。在这方面,火山引擎支持了Minimax、智谱、昆仑万维等大模型服务商在模型训练和应用领域的快速发展,国内绝大部分大模型创业公司,也都在深度的使用火山引擎;

第二,是大模型在垂直行业的加速应用。在智能驾驶领域,我们与智能驾驶服务商、造车新势力和主机厂进行了广泛合作,基于公共云进行超大规模的自动驾驶算法训练。生物科技领域,我们与行业客户进行了生信PaaS的联合共创,推动生信科研加速发展。金融领域,我们与不同类型的金融机构进行FinOps、智能风控、个性化推荐等云上AI创新。

就像多云是既成事实一样,多模型也一定会是未来趋势,多云多模型是长期的it格局。对于火山而言,在多云多模型的时代服务好模型企业和应用企业,是我们的关键使命。因此,今天火山引擎也正式推出两款升级产品:

第一个产品,是面向推荐场景的高速训练引擎。个性化推荐是移动互联网最重要的交互方式。但随着数据沉淀,越来越多的企业面临大规模稀疏模型的训练性能问题,导致模型更新缓慢影响线上效果。这也是我们推出高速训练引擎要解决的原因,它具备以下特点:

第一,采取了软硬一体优化设计,支持100GB-10TB+超大模型的高效训练

其次,实现高可用PS-Worker架构,支持 PS、Chief、Worker 全方位容错

第三,数据安全:企业只需要传输高度脱敏后的训练样本,保障数据安全

最后是高性价比:支持多种模型瘦身技术、支持多种GPU模式,训练加速比10倍以上,综合成本可降低25%~67%。

再来看机器学习。去年7月,火山引擎正式发布了机器学习平台,凭借0碎片的极致性能和优秀的开发体验,至今已经服务了诸多智能驾驶、AI制药和大模型客户。今天我们也正式带来三个重要升级点:

第一,是全新的实验管理-模型效果对比功能:仅需极少代码改动,用户就可以通过该功能实时跟踪和对比训练效果,观察趋势,加速模型迭代

第二,全新支持了弹性实例:实现灵活资源调度,随用随取,成本节省达70%

最后也是最重要的,平台针对大模型训练场景进行了全面优化:目前平台可以支持万卡级别大模型训练场景,微秒级超低延时网络,让大模型训练更稳更快。

0 阅读:0

秋水笔弹

简介:远慕《梦溪笔谈》,虽不能至,心向往之