留给传统云计算巨头的时间不多了

2024-06-14 18:06

新眸

关注

AI云与传统云，不仅是一场技术的较量，也是商业模式的争夺。

作者｜李小东

CoreWeave的大火被看作是AI云注定颠覆传统云计算的一个开端。

从七年前的挖矿公司，长成一家AI云厂商，这被外界看来符合自身技术路线的转型，加上与英伟达的暧昧关系，助推CoreWeave——一家规模不算庞大的公司，在短时间内估值达到190亿美元，就在5个月前，它的估值才刚刚70亿美元。

短时间内估值翻倍的背后，是全球 GPU 加速云基础设施的爆炸性需求，以及当前的AI融资狂潮。和传统云计算厂商卖计算资源、存储空间和各种云服务不同，CoreWeave专注GPU云计算，特别是与AI领域的紧密联系。

简单来说，现在因为生成式AI（如聊天机器人、图像生成等）越来越火，训练和运行这些AI模型需要大量的计算能力。GPU（图形处理器）因为能同时处理很多任务，成为了这类计算的优选硬件。

但事实上，买GPU和维护它并不便宜，所以很多人会选择使用云计算服务。像亚马逊AWS、谷歌云和微软Azure这样的主流公司都提供了特别为AI工作准备的GPU。但人们发现，有些专门提供GPU服务的小公司，比如CoreWeave，比那些大公司更便宜。

举个例子，据媒体报道，在CoreWeave上租用一款流行的GPU，每小时不到2.4美元，但在AWS和谷歌云上都要花费3.5美元左右。换句话说，细微的价差和庞大的市场需求，正在将Gartner提到的“GPU即服务（GAAS）”这样一个新的概念，日渐催化成了一个庞大的市场。

2024年，CoreWeave公司官方预测年度营收约24亿美元，前两年分别是3000万和5亿，虽然体量上和AWS这些巨头相去甚远，但夸张的增长态势，已经不得不让所有人对这个新兴的行业侧目。

颠覆传统云厂商的铲子从哪来？

CoreWeave之所以能被称为算力黄牛，是因为此前靠挖矿积累了大量的GPU。

简单来说，挖以太坊就像是一个巨大的数学竞赛，矿工使用计算机（特别是像英伟达这样的高性能GPU）来解一个叫“哈希函数”的难题。当他们用自己的GPU找到答案时，就赢得了一次挖矿的胜利，奖励就是以太币。

挖矿是一门技术活，更是体力活，为了获得更多的以太币，要挖更多的矿，与传统的CPU相比，GPU具有更高的并行处理能力和更强的计算性能，能够更快地执行复杂的加密算法。英伟达的GPU因卓越的性能和效率，成为了矿工们的首选铲子。

CoreWeave的三名创始人Michael Intrator、Brian Venturo和Brannin McBee都是华尔街背景，关注金融和科技领域，五年的挖矿经历，让他们通过各种方式获得了数万张高性能显卡，建立了不少数据中心。截至2018年末，CoreWeave部署超过5万张GPU，并且在挖矿逐渐没落的同时，借助算力资源转型做起了云计算的生意。

将CoreWeave和英伟达推向高峰的chatgpt，更准确地说是预训练大模型，因为训练这些大模型的数据量极其庞大，过程可以被拆解成不同的小任务，这就非常适合GPU做。产量有限，一个成本约3000美元的H100显卡可以卖到十倍价格。

据媒体报道，从宣布加入英伟达合作伙伴网络计划，到拿到首批英伟达HGX H100高性能计算平台，再到掌握将英伟达 H100作为抵押品获得融资，CoreWeave只用了不到三年。

之所以被英伟达青睐，外界普遍认为的核心是：在面对来自英特尔、AMD等半导体巨头以及OpenAI、微软等下游客户自研芯片的压力下，英伟达不得不既要抵御云厂商造芯片，又要进一步扩大GPU市场份额。所以芯片厂通过扶持不造芯片的CoreWeave、Lambda Labs等较小的云服务商，从而与微软等巨头能够形成间接竞争。

按照这样的逻辑，巨头在寻求GPU资源时，如果只能通过CoreWeave等公司间接获取，那么将需要支付更多的费用，包括购买GPU的费用以及使用CoreWeave等公司的服务费用。典型的例子就像刚与CoreWeave签订长期合作协议的微软，这样一来，作为最上游的英伟达仍然掌握最高的议价权。

CoreWeave依赖英伟达发财，就连它的创始人也坦然承认：“世界都在依赖英伟达，虽然我们也在了解不同的芯片和解决方案，但事实上，客户明确表示，目前他们需要构建产品和AI芯片类型，很大程度上是由英伟达基础设施推动的。”

但回过头来，这些其实还不足以论证CoreWeave被市场看好的根本原因。

本质上，押注CoreWeave的英伟达、前苹果高管、黑石等大量的资本，他们笃定另一个预判，传统的云服务商将被更新兴的AI云替代。

AI软件的发展速度非常迅猛，开发的训练过程需要更强大的计算资源，和更高效的云基础设施来支持不断增长，就连被定义为AI超大规模计算提供商的CoreWeave，有大量的GPU等设施，仍然供不应求。

就当前来看，现有的云基础设施大多是为可序列化工作负载设计的，它们更适合处理那些可以分解成一系列独立步骤并依次执行的任务；但AI工作负载的特性并不一样：它们通常需要进行大量的并行计算，并且需要实时地处理大量的数据。

在CoreWeave的CTO看来，他们不仅拥有大量的GPU作为生产力工具，更重要的是其软件技术非常先进，这是它能够比其他公司更好地利用GPU服务器，确保客户获得最佳性能的原因。

更灵活、更划算，CoreWeave能满足什么？

为什么选择CoreWeave，它的官网上有很直接地回答：

CoreWeave是一家专门为企业级GPU加速工作负载提供云服务商。他们的Kubernetes原生基础设施专为机器学习、VFX渲染、像素流和批处理等计算密集型用例而构建，与传统云厂商相比，速度最高可提高35倍，成本降低80%。

用创始人的Brannin的话简单来说，CoreWeave的云不是简单地加上GPU然后让用户能够使用它。它其实是一个复杂的系统，像是一个大舞台的导演，管理着所有的资源和设备，让用户可以方便地访问和使用这些资源。

这和那些大公司的云不同，因为传统云主要是为了托管网站和存储数据，而CoreWeave是从头开始打造的，专注于运行AI和其他需要大量并行计算的任务。这是它的核心优势之一，对以前不能参与的决策，客户有更自由，“严格的资源配额和等待数小时才能启动GPU已经成为过去，现在你可以在几秒钟内调用、扩大和缩小数千个GPU。”

Brannin喜欢打一个比喻，CoreWeave和传统云厂的区别，就像特斯拉和福特汽车。福特当然可以造出像特斯拉一样的汽车，但这意味着他们需要经历范式转变，因为涉及的是整个供应链和整体业务，需要推翻过去重新开始，且容易陷入创新者困境，大公司往往不愿这么做。

当然，这种对AI的专一性，也直接造就了CoreWeave在给AI公司服务时的专业性。

CoreWeave的主要产品有7类，除了提供高性能计算平台H100和最齐全的GPU，也提供CPU来满足不同负载需求，还有完全托管的Kubernetes服务，消除了客户管理Kubernetes集群的负担，使他们能够专注于应用程序的开发和部署；以及NVMe文件系统卷，这种高性能存储适用于分布式机器学习训练、VFX渲染、生命科学批处理和元宇宙像素流等工作负载。

除此以外，CoreWeave使用InfiniBand技术建立了高性能的网络，相当于给每一辆车（GPU）搭建高速公路，能够满足大规模数据处理和传输的需求，从而有助于AI产品更快速地发展和规模化。

客观来讲，CoreWeave的产品体系覆盖了高性能计算的各个方面，从硬件资源到软件服务，让模型训练、托管、微调以及推理服务变得简单。

至于具体的效果，对比A100，H100能将大型模型的AI训练速度提高9倍，推理速度提高三十倍。H100的性能目前维持在行业第一，这种速度，加上NVIDIA Quantum-2InfiniBand平台在市场上最低的网络延迟，将AI模型的训练时间缩短至几天或几小时，而不是几个月。

以做NFT的Procedural Space为例，这是数万个独特的、程序生成的行星NFT的集合。每个行星都是使用独特的算法生成的，这些算法控制着行星的颜色、地形构造、海洋、文明等，所有 Procedural Space 行星均制作为一分钟的 4K 视频，展示行星的完整旋转。由于负载量大，帧速率为每秒30帧，因此需要1800万个高分辨率帧。

以往他们用过其他的渲染引擎，但效果并不大好，但通过与CoreWeave合作，Procedural Space 能够在短短一周内渲染、存储、压缩、编码和制作100GB的4K高分辨率图像，而成本仅为原来的六分之一。

那为什么说CoreWeave是当下AI公司最具性价比的选择？

一方面，CoreWeave提供了业内价格最低、最广泛的NVIDIA GPU系列选择，客户可以根据自己的工作负载选择合适的GPU，从而确保性能和成本的最优化。并且与其他云提供商不同，CoreWeave 在绝大多数用例中不收取区域间传输、工作站数据或出口等费用，这样客户就不用担心数据传输会花很多钱。

另一方面，CoreWeave提供了按需定价模式，意味着客户只需支付他们实际使用的资源费用，无需签订长期合同或做出任何承诺。这种灵活性使得客户能够根据自己的实际需求进行扩展或缩减，从而节省成本。如果客户需要长期或大量使用，他们还有折扣。这也就不难解释，CoreWeave的云基础设施的速度会比通用公共云快35倍，成本却低了80%。

留给传统云厂商的时间不多了

Brian Venturo作为CoreWeave的CTO，提到如果有一种新的芯片性能与英伟达相当或更好，那意味着市场上出现了一个强有力的竞争对手。

想象一下，如果你家附近新开了一家和沃尔玛一样大的超市，那么沃尔玛的生意可能会受到一些影响，因为消费者现在有了更多的选择。对于 CoreWeave 来说，这个新的芯片就像那家新开的超市，可能会吸引一些原本使用英伟达芯片的客户。

但Brannin McBee 提到的一个观点是，一种芯片的前两到三年主要用于模型训练，然后四到五年用于推理执行。这意味着即使有了新芯片，现有的英伟达芯片在一段时间内仍然会很有用，因为很多公司可能还在使用它们进行推理执行。

除此以外，英伟达不仅仅提供芯片，它还努力建立一个围绕其硬件的开放生态系统。这意味着很多软件、工具和服务都是与英伟达芯片紧密集成的。其他制造商虽然可以制造性能相近的芯片，但要建立一个像英伟达那样的生态系统非常困难。

相比大型云厂商（如谷歌、微软和AWS）需要投入大量的资金来建设和维护庞大的数据中心，还要提供一些低利润的服务来吸引和保持客户。CoreWeave这样的公司，由于它们更专注于提供优质的AI服务，所以在基础设施方面的投入相对较小，这使得它们更容易取得成功。

就像前面说的那样，传统云厂商是有“基础设施包袱”的。

不过现实情况里，随着谷歌、微软和AWS等传统云厂商开始加大对定制硬件的投资，CoreWeave也在经历挑战，这里的关键就在于，后者能否持续提供大量的GPU并保持价格上的竞争力。

对于一家AI公司的一个模型而言，退出训练阶段后，在产品上市的前两年内，商业化阶段的推理执行仍然至少需要百万个GPU，但目前市场的供给远不足够，这将是一个长期的挑战。换句话说，未来不排除越来越多像CoreWeave的公司出现，毕竟AI这股洪流的到来已经是个确定性的话题。

本文系新眸原创，申请转载授权请联系。

— END —

原文标题 : 留给传统云计算巨头的时间不多了