1700万美元的内存账单:AI机架最昂贵的秘密
所有人都在谈论GPU。没人谈论内存账单。
一个NVIDIA Vera Rubin NVL72机架包含72颗GPU,每颗配备288 GB HBM4。总计20.7 TB——这是有史以来制造的最快、最昂贵的内存——仅HBM4内存组件就占每个机架成本的约1000-1600万美元。
但真正让CFO头疼的是:20 TB不够。当你的模型同时服务1000个百万token上下文窗口的用户时,KV缓存就需要100+ TB。这些数据去哪了?
答案是:AI产业正在构建一个全新的五层内存层级——每一层都有2026年出货的新产品。
五层内存堆栈
这不是理论。图表中的每一层都有正在出货或送样的硬件。
第1层:SRAM——速度之王
黄仁勋的GTC架构将推理分为两个阶段:预填充(理解你的提示)和解码(生成回答)。预填充受限于算力——需要GPU。解码受限于内存带宽——需要极致速度。
Groq的LPU将一切保持在片上SRAM中——完全无需片外内存访问。黄仁勋说他会在每个数据中心部署**“25% Groq,75% Vera Rubin”**。
Groq3 LPU由三星晶圆代工用4nm制造,Q3 2026开始向NVIDIA出货。一个Groq机架约60 GB SRAM——容量微小,但速度无与伦比。
第2层:HBM4——计算引擎
HBM4是主力。Vera Rubin每GPU 288 GB,带宽20.5 TB/s。72颗GPU = 每机架20.7 TB,聚合带宽1,580 TB/s。
三家内存厂商(三星、SK海力士、美光)全部合格。三星将HBM产量提高三倍,一半用于HBM4。三星HBM4E规格:每堆栈4 TB/s,16 Gbps,48 GB。
但HBM有一个根本问题:太贵了,无法为容量扩展。 以$500-800/GB计算,100 TB KV缓存要$5000-8000万。没人会这样做。
这就是HBM以下每一层存在的原因。
第3层:CXL内存——容量担当
HBM的$500/GB和NVMe的$0.10/GB之间,以前什么都没有。CXL填补了这个空白。
CXL让你把TB级DDR5内存插入服务器,GPU可以一致性访问——比NVMe快10倍,每GB仅**$5-10**。
三件事让CXL从理论变为现实:
1. CPU门槛已跨越。 AMD EPYC Turin和Intel Xeon 6都支持CXL 2.0。Xeon 6是DGX Rubin NVL8内部的CPU。
2. 交换机到了。 Marvell刚发布Structera S 30260——260通道CXL交换机,实现机架级内存池化。首个CXL交换产品。
3. 服务器存在了。 Penguin Solutions MemoryAI:首个量产CXL KV缓存服务器,11 TB。研究表明比RDMA吞吐量提升7.35倍。
Google已在生产环境部署CXL控制器。
第3.5层:HBF——内存厂商的桥梁
SK海力士正在开发HBF(高带宽扇出)——从内存厂商侧桥接HBM和SSD。CXL的表亲:同样的定位,不同的路径。
蚕食问题
在进入闪存层之前,让我们先看全局。因为五层堆栈只有在理解全球内存供应正在发生什么之后才有意义。
一个关键数字解释了整个内存危机:HBM每GB消耗的硅晶圆是标准DDR5的3-4倍。 每制造一颗用于Vera Rubin GPU的HBM4芯片,就会蚕食原本可以生产3-4颗笔记本或智能手机内存芯片的硅片。
全球DRAM晶圆产能约为每月200万片300mm晶圆投片——约占所有半导体产能的22%。2026年,AI工作负载(HBM + GDDR7)将消耗所有DRAM晶圆产能的20%(TrendForce)。数据中心总计将消耗2026年生产的所有内存芯片的70%。
变化是剧烈的。2024年服务器占DRAM的38%。到2026年是48%——而手机从35%降到28%,PC从22%降到18%。AI正在蚕食原本用于你手机和笔记本的内存。
更严重的是:OpenAI的Stargate项目——仅仅一个客户——就可能消耗全球DRAM产量的40%,据报与三星和SK海力士签订了每月90万片晶圆的协议。
内存价格超级周期
供需失衡创造了十年来最极端的内存定价:
- DRAM: 2026年初定价比2025年同期高7-8倍。今年没有价格回落预期。
- NAND: 三星Q1涨价100%,计划Q2再涨100%。TrendForce预测90%的季环比飙升。
- 三星的悖论: 他们的内存业务利润丰厚,但高内存价格正在压垮智能手机部门——营业利润同比下降60%。制造内存的公司正在被自己内存的价格杀死。
- Phison 转向预付款模式——客户必须先付款才能获得供应。
- Gartner预测入门级PC市场将在2028年前消失,因为内存成本使廉价笔记本无法盈利。
三星的不可能处境浓缩为一句话:他们的内存部门将HBM产量提高三倍并将NAND价格提高100%,如此成功以至于正在摧毁他们智能手机部门的盈利能力。制造内存的公司正在被自己内存的价格杀死。
中国变量
一个被大多数西方分析师低估的供应变量:中国正在以惊人速度建设自己的内存产业。
长鑫存储(CXMT) 2024年将DRAM产能从10万片扩展到20万片晶圆/月——目标是2026年达到30万片。这大约占全球DRAM晶圆基数的13-15%。联想已经在采用CXMT的LPDDR5X模组。
长江存储(YMTC) 正在量产232层和294层Xtacking 4.0 NAND,目标是2026年占全球NAND市场15%。关键转折:YMTC第三座武汉工厂将于2027年投产,50%产能转向DRAM生产——从NAND多元化进入中国最有增长空间的内存类型。
到2027年,中国DRAM市场份额预计将达到10-11%。
各内存类型的中国风险分析:
- HBM: 最低风险——需要中国无法复制的先进封装(TSV、CoWoS)
- DRAM: 中等风险——CXMT在DDR5/LPDDR上是真正的竞争对手
- NAND: 最高风险——YMTC已占15%且在增长
AI内存堆栈最重要的HBM层——恰恰是中国最不具竞争力的层级。但在标准DRAM和NAND——供给CXL内存池和GPU直连闪存的层级——中国是一股日益增长的力量。驱动五层堆栈的内存短缺,部分上是一个中国国产产能可以缓解的西方问题,至少在较低层级如此。
第4层:GPU直连闪存——深度池
NVIDIA的Storage-Next计划创造了全新层级:GPU可以直接访问的闪存。
Kioxia GP Series:使用XL-FLASH的超高IOPS SSD,512字节粒度GPU直连访问(标准SSD是4KB)。
Kioxia CM9:25.6 TB PCIe 5.0 SSD,专为**上下文内存存储(CMX)**设计——NVIDIA的KV缓存持久化架构。
NVIDIA Dynamo 1.0——刚投产的推理操作系统——协调所有层级之间的数据移动。
改变一切的数学
没人在谈论的部分:单个AI机架的内存账单可能接近或超过GPU成本。
- HBM4: 20.7 TB,$500-800/GB = $1000-1600万
- CXL: 50-100 TB,$5-10/GB = $25-100万
- GPU直连闪存: 100+ TB,$0.10-0.50/GB = $1-5万
总计:每机架$1000-1700万。HBM4不到总容量的20%,但占总成本的90%以上。
这意味着什么
AI内存层级不再是GPU → DRAM → SSD。而是:
SRAM(速度)→ HBM(计算)→ CXL(容量)→ HBF(桥梁)→ GPU直连闪存(深度)
对于AI实验室,这改变了采购逻辑:从”买多少GPU”变成”内存架构是什么”。训练机架(HBM密集、带宽优化)和推理机架(CXL密集、容量优化)将是根本不同的配置。
瓶颈从来不是算力。一直是内存。现在内存的每一层都在同时重建。