GPU 集群的真正成本是多少?
随着生成式 AI 的兴起,现代 GPU 的价格飙升,一块 Nvidia Blackwell GPU 的价格甚至已超过一辆家用汽车,其功耗也可能超过一个普通家庭。很多企业动辄拥有数千块此类 GPU 昼夜运转,投身基础模型的训练与服务。
根据行业观察,多家初创企业在 GPU 上的投入甚至超过了员工成本的一个数量级,不少团队将超过 80%的初始融资用于购买或租赁 GPU 。在这种背景下,创业公司在制定财务规划时,往往将开销划分为GPU 集群、Token消耗、员工成本和其他开支等四大类,其中 GPU 集群成本通常最为瞩目。
传统上,企业在选取 GPU 服务提供商时,往往只关注“每 GPU 小时租金”这一指标,把注意力集中在最昂贵的 GPU 本身上。
然而,这种看似直观的做法存在陷阱。事实上,两家云厂商的 GPU 小时租金即便相同,涵盖了部署整个训练/推理工作负载的各类因素后,它们的总体拥有成本( TCO )可能大相径庭。停机时间、环境搭建和调试消耗的时间、以及对网络和存储性能的调优投入,都直接影响单位美元所能完成的有效工作量。
此外,诸如 CPU 计算、网络、存储、编排软件或技术支持等非 GPU 花销,也常被忽略。换言之,看上去便宜的集群往往会在这些隐藏成本上“花掉”更多钱。
SemiAnalysis 的 ClusterMAX 研究指出,GPU云服务商之间集群质量的差距会显著影响用户体验和生产效率,进而影响真正的 TCO 。硬件规格、参考架构或一次性性能测试无法完全体现可靠性、网络行为、存储性能和支持质量上的差异,而这些正是决定集群“达成研究目标所需时间”的关键因素。
在本文中,我们介绍一种 GPU 集群的 TCO 计算方法,综合考虑计算、存储、网络、控制平面和技术支持等直接成本,以及与可靠性、调试、环境搭建相关的隐性成本。基于 SemiAnalysis 模型测算,本文结果仅供成本分析参考,不构成采购建议。
通过这一框架,我们对比了 ClusterMAX 金牌级服务商、超大规模云厂商( Hyperscaler )和银牌级新兴云服务商(neocloud)三类典型服务商的表现,并在大型 LLM 预训练、多模态强化学习研究和推理服务端点三种代表性场景下进行了模拟对比。
研究发现,在相同 GPU 定价前提下,金牌级服务商在大规模训练任务上的 TCO 通常比银牌级低约 5%–15%,而在容错能力较强的任务(如单节点推理)中,这一差距几乎缩减为零。
GPU 集群 TCO 的构成要素
要公平地评估不同云服务商的 GPU ,我们需要将总体拥有成本( TCO )细分为多个组成部分。
首先是GPU 成本($/GPU-小时):这就是云服务商给出的 GPU 租用价格,但实际花费还要考虑长期合约折扣、抢占式实例的使用策略,以及“编排溢价”等因素。比如,在 AWS 上通过 SageMaker HyperPod Slurm 调用标准 EC2 GPU 实例时,用户实际上需为 SageMaker 实例类型支付额外费用,即使底层 GPU 硬件一致,这部分溢价也会被计入每 GPU 小时成本。
来源: SemiAnalysis GPU 租赁价格仪表板
第二类是存储成本($/GB-月):这包括高性能“热存储”(如 NVMe 并行文件系统)、较低性能的“温存储”或对象存储,以及面向长期归档的“冷存储”。此外,还要考虑存储访问相关费用,比如对象存储 API 调用费或数据 egress 等。在训练阶段,频繁读写大规模数据集和模型检查点会产生大量 I/O 开销;在推理阶段,大量的日志、指标(包括图像、音频等多模态内容)也需要存储支撑,这些都是实实在在的开销。
来源: SemiAnalysis 集群 TCO 计算器
第三类是网络成本($/hr 或 $/GB-月)。这主要指南北向网络服务,如公网 IP 、防火墙、安全组、负载均衡、以及数据出网或跨区域数据传输等费用。比如,将训练数据或模型权重从 AWS 导出或在不同区域间传输时往往会产生大量的费用。对于东西向网络,假设所有集群在经过环境搭建后都能通过高带宽互连(如 InfiniBand 、 RoCE 、 EFA 等)达到相近性能水平。因此,这部分性能差异不在模型直接体现,而是转而反映在“环境搭建成本”和“调试成本”中。
第四类是控制平面成本($/hr ),即管理和调度集群所需的开销,包括编排系统控制平面资源,以及登录和代码开发节点的运行成本。例如部署用于登录、提交任务的节点,以及额外的 CPU 节点(用于数据预处理或强化学习的环境仿真)都计入此项。
此外,技术支持也属于重要成本。以 AWS 为例,支持服务按月度消费的百分比计费,消费越高比率越低,一般从约 10% 逐渐递减至 3%。不同支持级别意味着在集群故障或性能问题时响应速度和质量的差异,这项费用通常会直接反映在账单中。
来源: SemiAnalysis 集群 TCO 计算器
最后还有一些隐性成本。例如上述的有效算力( Goodput )成本并不直接出现在账单上,它体现为由于集群故障导致的额外开销:或需要更长时间租赁资源,或在同样时间内完成的有效工作量减少。
具体取决于服务商运维能力和集群设计:包括故障频率、问题定位时间、节点修复时间,以及单个故障波及范围(如训练重启时间、 Checkpoint 频率、是否使用容错框架等)。
来源: SemiAnalysis 集群 TCO 计算器
此外,为了搭建和持续调优集群所投入的工程师时间也要摊销为成本。例如在 AWS 上为优化 NCCL+EFA 网络性能,往往需要多位工程师投入数周甚至数月,专用整套集群用于性能调优。这些“环境搭建成本”和“调试成本”同样体现为时间与人力的开销。
来源:SemiAnalysis GPU 集群总体拥有成本( TCO )公式
综上, TCO 计算公式将 GPU 、存储、网络、控制平面、支持等直接成本,以及有效算力损失、搭建与调试等隐性成本统一纳入,给出每月GPU集群的总体拥有成本。
有效算力与容错策略
在谈论成本时,有效算力( Goodput )概念尤为关键。 Goodput 指的是集群在单位时间内完成的实际“有效工作量”。它借用了“吞吐量”一词,但强调并非所有运行中的资源利用都产生价值。例如,若某 GPU 宕机、网络通信发生阻塞,或在下一个检查点写入时发生 OOM (内存溢出),则之前的运行尽管看似完成了计算,却没有产出有效成果。
这种问题在大规模集群中表现得尤为明显。假设集群 80% 的资源都在执行同一个训练任务,一旦发生故障需要重启(该过程可能持续 10-15 分钟,具体取决于存储、网络、 CPU 、缓存等因素),那么这段时间内的所有计算都将前功尽弃,同时还浪费了集群重新初始化所需的时间(大约 10-15 分钟)。
更重要的是,随着集群规模扩大,节点失效率保持不变的情况下,整个集群发生故障的概率显著上升。 SemiAnalysis 指出,随着集群规模( GPU 数量)和节点故障率的提高,两次故障之间的平均时间( MTBF )显著缩短。
来源: AWS
在实际运行中,大型训练任务越多,系统可用于持续有效计算的时间就越少,故障带来的 Goodput 损失越严重。为了降低这部分隐性损失,用户和提供商需要重点关注数据中心的运行质量和响应速度:包括故障快速检测(甚至预警)、高效的热备机制等。
来源:SemiAnalysis Goodput成本计算公式
SemiAnalysis 将这种损失归结为“Goodput 成本”。具体地,根据集群和作业设计,采用不同的容错模型可以量化 Goodput 损失。
常见模式包括:冷备( checkpoint-cold )——发生故障时作业等待故障节点修复后再从检查点重启,通常需要数小时甚至数天;热备( checkpoint-hot )——作业可切换到事先预留的空闲节点或抢占低优先级任务的资源后重启,恢复更快;以及容错模式( fault-tolerant )——作业可在硬件故障时继续运行,如现代单节点推理框架中负载均衡自动将请求重新路由到健康节点。
这些模式下, Goodput 损失的计算会涉及故障识别时间、检查点频率、作业初始化时长、修复时长以及受影响的节点数等参数。例如 TorchFT 和 AWS Checkpointless Training 等容错训练框架尝试缩短这一时间,但往往以通信或内存开销为代价。
综上所述,评估云服务时需要重点关注其运行质量:顶级服务商通常在数据中心运行管理、故障快速检测与修复方面更加成熟,能够提供更高的集群可用性和更小的 Goodput 损失。
三类云服务商对比概览
接下来,我们选取三类具有代表性的服务商进行分析:
金牌级( Gold-tier )
超大规模云厂商( Hyperscaler )
银牌级( Silver-tier )
来源: SemiAnalysis ClusterMAX 2.1 排名( 2026 年 4 月)
金牌级( Gold-tier )
金牌级云服务商的存储性能表现较强,在网络方面, InfiniBand 或 RoCE 通常可以“开箱即用”地达到预期性能,几乎不需要额外配置时间。其调度与编排软件(如 Slurm 或 Kubernetes )通常已经正确配置,并且部署和使用都比较简单。
技术支持方面,金牌级云服务商通常提供 7×24 小时支持,响应速度快,并且可以直接接触到有经验的工程师,而不需要经过工单流程。此外,监控面板通常随集群一并配置,健康检查默认启用,并且在发生故障时可以快速调用热备节点池进行替换,从而在硬件故障发生时实现快速恢复。
超大规模云厂商( Hyperscaler )
在开箱体验方面,超大规模云厂商的默认存储性能通常较弱,想要提升性能往往需要额外付费,且可用折扣有限。网络性能方面,超大规模云厂商通常需要大量的配置与后续调试,整个过程中容易产生问题,导致大量集群时间被浪费在非生产性工作上。
此外,概念验证( POC )通常并非免费,这进一步增加了环境搭建成本。支持服务方面,超大规模云厂商通常单独收费,并提供不同等级的支持套餐,不同套餐对应不同响应时间和月度费用。随着消费规模增加,支持费用通常从账单的约 10% 逐步下降到约 3%。监控系统通常不会默认配置,也可能需要额外付费。
银牌级( Silver-tier )
典型的银牌级新兴云服务商可以视为多家厂商产品特征的综合体,其存储性能取决于厂商在 VAST 或 Weka 等系统上的经验积累。网络方面, InfiniBand 或 RoCEv2 通常可以较好地“开箱即用”,但在调度系统(如 Slurm 或 Kubernetes )的配置与调试过程中,仍可能浪费一定时间,且 POC 并不总是免费。
关键问题在于,监控面板和健康检查通常不会默认配置。热备节点池可能存在,但通常不提供明确的容量保障。因此,很多银牌级服务商更依赖“冷备”( cold spares )模式,并由原始设备制造商( OEM )来承担维修与替换流程。
典型场景的 TCO 对比分析
接下来,我们应用上述框架对三种代表性场景下的 TCO 进行对比:大规模 LLM 预训练、多模态强化学习研究、推理服务端点。
场景 1 :大规模 LLM 预训练
假定一个规模为约 5184 块 GPU (如 GB300 NVL72 )的训练集群,其中约 80%( 4096 块 GPU )资源用于一个大型预训练任务。为此,我们设定较高的存储比例(约 2TB/GPU )并配置 500TiB 的热存储和 10PiB 的冷存储。在启动阶段需要较长的集群调优时间,以尽量达到对横向通信网络的最佳利用,这意味着在超大规模云厂商环境中需要更多的 EFA 调优工作。
来源: SemiAnalysis 集群 TCO 计算器
基于以上假设,金牌级、超大规模云厂商和银牌级服务商在三年合同期内的成本比分别为 1:1.10:1.15倍。也就是说, Hyperscaler 的 TCO 比金牌级高约 10%,银牌级高约 15%。
对于 Hyperscaler 而言,这 10%的差异主要来自额外的支持费用和集群调优成本(主要是 EFA 网络性能调优)。而银牌级服务商出现的 15% 成本差异,则主要源于更高的 Goodput 损失(即更多的宕机和无效时间)、环境搭建成本(工程师进行健康检查和性能调优所耗时间)、以及较高的存储成本。
场景 2 :多模态强化学习研究
在这个场景中,我们假设规模更小的训练集群(如2048 张 B200 GPU ),但具有极高的存储需求(约 12TB/GPU )。同时,这类科研任务通常对容错支持较少,即用户代码中没有实现高级容错机制,因此服务商是否提供热备资源将直接影响故障后作业的恢复等待时间。在网络要求方面,由于是计算或内存带宽受限任务,假设几乎无需额外环境调试时间即可在各家服务商间达到相似性能。
来源: SemiAnalysis 集群 TCO 计算器
在这种情况下,三年期内金牌级、 Hyperscaler 和银牌级的成本比约为 1.00 : 1.61 : 1.15 。 Hyperscaler 的成本高出 61% 主要源于更高的 GPU 和编排费用、存储费用以及环境搭建时间。相比之下,银牌级高出 15% 则主要是存储成本增加,其次是一些 Goodput 成本和调试时间。
场景 3 :推理服务端点
在前两个场景中,我们默认用户代码缺乏容错支持;本场景假设用户采用了现代推理框架(如 llm-d 、 OME 等),内建负载均衡与自动扩缩容。这样一来,当某节点故障时,正在处理的请求会自动在负载均衡层重试至其他健康节点,因此是否有热备节点仅影响单节点的冷切换时间,而不会影响端到端请求的可用性。
此外,本场景不存在检查点机制,也无任务重启带来的初始化时延。我们假定单个请求的规模相对于集群非常小:在 512 GPU 的集群中只占用一个节点( 8 GPU ,约 1.5%)。假设较低的存储需求(约1TB/GPU),其中 500TB 热存储用于模型和日志,剩余冷存储放在远程对象存储。
来源: SemiAnalysis 集群 TCO 计算器
在上述条件下,在 3 年内比较金牌级、超大规模云厂商和银牌级 neocloud的价格差异几乎完全取决于 GPU 定价。其中, Hyperscaler 的成本高出约 59%,主要原因在于其较高的 GPU租赁价格,以及对编排软件、存储、支持服务等项的额外收费。
结束语
综上分析, GPU 集群的总体拥有成本远不止每 GPU 小时租金那么简单。SemiAnalysis数据显示,即便三类服务商的 GPU 定价相同,超大规模云厂商在综合成本上依然会比金牌级服务商高出 10%以上;而银牌级 neocloud 也可能高出 15%以上。
这些差异主要来自隐藏成本,包括技术支持费用、环境搭建和调优所需工程时间,以及故障导致的有效算力损失等。相应地,用户在制定采购策略和预算时,除了关注 GPU 小时价格外,也应仔细评估存储、网络、环境搭建与调试等隐性成本对项目的影响。
下一:暂无


