SGNL Intelligence.
EN 中文
1 min read

1700万美元的内存账单:AI机架最昂贵的秘密

内存HBM4CXLSRAMGroqNVIDIA推理KioxiaMarvellSK Hynix

所有人都在谈论GPU。没人谈论内存账单。

一个NVIDIA Vera Rubin NVL72机架包含72颗GPU,每颗配备288 GB HBM4。总计20.7 TB——这是有史以来制造的最快、最昂贵的内存——仅HBM4内存组件就占每个机架成本的约1000-1600万美元

但真正让CFO头疼的是:20 TB不够。当你的模型同时服务1000个百万token上下文窗口的用户时,KV缓存就需要100+ TB。这些数据去哪了?

答案是:AI产业正在构建一个全新的五层内存层级——每一层都有2026年出货的新产品。


五层内存堆栈

2026年AI内存层级
SRAM (Groq LPU)Embedded/GB
On-chip
Capacity: ~60 GB/rackLatency: <1 ns
Decode-only. Eliminates HBM bottleneck for token generation. 25% of Jensen's data center recipe.
HBM4$500-800/GB
20 TB/s
Capacity: 20.7 TB/rackLatency: ~10-20 ns
Compute layer. 288 GB per Vera Rubin GPU × 72 = 20.7 TB/rack. Fastest, scarcest, 90%+ of memory cost.
CXL Memory$5-10/GB
~50-128 GB/s
Capacity: 50-100 TB/rackLatency: ~100-200 ns
KV cache overflow. Marvell 260-lane CXL switch + Penguin 11 TB server shipping now. 10x faster than NVMe.
HBF (SK Hynix)TBD/GB
TBD
Capacity: TBDLatency: TBD
Bridge layer. Memory vendor approach to the HBM-SSD gap. Complementary or competitive with CXL — TBD.
GPU-Direct Flash$0.10-0.50/GB
~7-50 GB/s
Capacity: 100+ TB/rackLatency: ~10-100 µs
Cold KV cache, checkpoints, model weights. Kioxia GP Series: 512-byte GPU-direct access. NVIDIA Storage-Next.

这不是理论。图表中的每一层都有正在出货或送样的硬件。


第1层:SRAM——速度之王

黄仁勋的GTC架构将推理分为两个阶段:预填充(理解你的提示)和解码(生成回答)。预填充受限于算力——需要GPU。解码受限于内存带宽——需要极致速度。

Groq的LPU将一切保持在片上SRAM中——完全无需片外内存访问。黄仁勋说他会在每个数据中心部署**“25% Groq,75% Vera Rubin”**。

Groq3 LPU由三星晶圆代工用4nm制造,Q3 2026开始向NVIDIA出货。一个Groq机架约60 GB SRAM——容量微小,但速度无与伦比。

SRAM用于解码速度。HBM用于计算带宽。同一次推理请求的两个不同阶段,用两种不同的内存。

第2层:HBM4——计算引擎

HBM4是主力。Vera Rubin每GPU 288 GB,带宽20.5 TB/s。72颗GPU = 每机架20.7 TB,聚合带宽1,580 TB/s

三家内存厂商(三星、SK海力士、美光)全部合格。三星将HBM产量提高三倍,一半用于HBM4。三星HBM4E规格:每堆栈4 TB/s,16 Gbps,48 GB。

但HBM有一个根本问题:太贵了,无法为容量扩展。 以$500-800/GB计算,100 TB KV缓存要$5000-8000万。没人会这样做。

这就是HBM以下每一层存在的原因。


第3层:CXL内存——容量担当

HBM的$500/GB和NVMe的$0.10/GB之间,以前什么都没有。CXL填补了这个空白。

CXL让你把TB级DDR5内存插入服务器,GPU可以一致性访问——比NVMe快10倍,每GB仅**$5-10**。

三件事让CXL从理论变为现实:

1. CPU门槛已跨越。 AMD EPYC Turin和Intel Xeon 6都支持CXL 2.0。Xeon 6是DGX Rubin NVL8内部的CPU

2. 交换机到了。 Marvell刚发布Structera S 30260——260通道CXL交换机,实现机架级内存池化。首个CXL交换产品。

3. 服务器存在了。 Penguin Solutions MemoryAI:首个量产CXL KV缓存服务器,11 TB。研究表明比RDMA吞吐量提升7.35倍

Google已在生产环境部署CXL控制器。

CXL版本演进——为什么2.0是关键
CXL 1.1
2022
Host → Device only
CPU can read/write device memory. No pooling. Shipped with Intel Sapphire Rapids, AMD Genoa.
PCIe 5.0
CXL 2.0
2023-24
Memory Pooling + SwitchingGPU-direct
Multiple hosts share a CXL memory pool via switches. GPU-direct access possible. AMD Turin + Intel Xeon 6 ship this.
PCIe 5.0
CXL 3.0
2025
Fabric + Peer-to-PeerGPU-direct
Multi-level switching, fabric topologies, coherent P2P across hosts. Full rack-scale memory fabric.
PCIe 6.0
CXL 4.0
Nov 2025
128 GT/s + Bundled PortsGPU-direct
Doubles bandwidth. Bundled ports for 1.5 TB/s connections. Multi-rack memory pooling at 100+ TB scale.
PCIe 7.0

第3.5层:HBF——内存厂商的桥梁

SK海力士正在开发HBF(高带宽扇出)——从内存厂商侧桥接HBM和SSD。CXL的表亲:同样的定位,不同的路径。


蚕食问题

在进入闪存层之前,让我们先看全局。因为五层堆栈只有在理解全球内存供应正在发生什么之后才有意义。

每GB内存的硅晶圆消耗量
Standard DDR51x
1 GB DDR5 = 1x wafer area (baseline)
GDDR7 (GPU memory)1.7x
1.7x wafer area per GB vs DDR5
HBM4 (AI accelerator)3.5x
3-4x wafer area per GB — each HBM chip cannibalizes 3-4 DDR5 chips
Source: TrendForce. Every 1 GB of HBM4 produced consumes the silicon that could have made 3-4 GB of DDR5 for laptops and phones.

一个关键数字解释了整个内存危机:HBM每GB消耗的硅晶圆是标准DDR5的3-4倍。 每制造一颗用于Vera Rubin GPU的HBM4芯片,就会蚕食原本可以生产3-4颗笔记本或智能手机内存芯片的硅片。

全球DRAM晶圆产能约为每月200万片300mm晶圆投片——约占所有半导体产能的22%。2026年,AI工作负载(HBM + GDDR7)将消耗所有DRAM晶圆产能的20%(TrendForce)。数据中心总计将消耗2026年生产的所有内存芯片的70%

DRAM去向:服务器/DC vs 手机 vs PC
2024
Server/DC
38%
Mobile
35%
PC
22%
2026E
Server/DC
48%
Mobile
28%
PC
18%
Server/DC
Mobile
PC
Other
Server/DC share growing from 38% to 48% of DRAM bits shipped. Mobile and PC shrinking. AI is cannibalizing consumer memory.

变化是剧烈的。2024年服务器占DRAM的38%。到2026年是48%——而手机从35%降到28%,PC从22%降到18%。AI正在蚕食原本用于你手机和笔记本的内存。

更严重的是:OpenAI的Stargate项目——仅仅一个客户——就可能消耗全球DRAM产量的40%,据报与三星和SK海力士签订了每月90万片晶圆的协议。

一个项目。全球DRAM产量的40%。这就是SK集团会长说晶圆短缺将持续到2030年的原因。

内存价格超级周期

供需失衡创造了十年来最极端的内存定价:

  • DRAM: 2026年初定价比2025年同期高7-8倍。今年没有价格回落预期。
  • NAND: 三星Q1涨价100%,计划Q2再涨100%。TrendForce预测90%的季环比飙升。
  • 三星的悖论: 他们的内存业务利润丰厚,但高内存价格正在压垮智能手机部门——营业利润同比下降60%。制造内存的公司正在被自己内存的价格杀死。
  • Phison 转向预付款模式——客户必须先付款才能获得供应。
  • Gartner预测入门级PC市场将在2028年前消失,因为内存成本使廉价笔记本无法盈利。

三星的不可能处境浓缩为一句话:他们的内存部门将HBM产量提高三倍并将NAND价格提高100%,如此成功以至于正在摧毁他们智能手机部门的盈利能力。制造内存的公司正在被自己内存的价格杀死。


中国变量

一个被大多数西方分析师低估的供应变量:中国正在以惊人速度建设自己的内存产业。

长鑫存储(CXMT) 2024年将DRAM产能从10万片扩展到20万片晶圆/月——目标是2026年达到30万片。这大约占全球DRAM晶圆基数的13-15%。联想已经在采用CXMT的LPDDR5X模组。

长江存储(YMTC) 正在量产232层和294层Xtacking 4.0 NAND,目标是2026年占全球NAND市场15%。关键转折:YMTC第三座武汉工厂将于2027年投产,50%产能转向DRAM生产——从NAND多元化进入中国最有增长空间的内存类型。

到2027年,中国DRAM市场份额预计将达到10-11%

各内存类型的中国风险分析:

  • HBM: 最低风险——需要中国无法复制的先进封装(TSV、CoWoS)
  • DRAM: 中等风险——CXMT在DDR5/LPDDR上是真正的竞争对手
  • NAND: 最高风险——YMTC已占15%且在增长

AI内存堆栈最重要的HBM层——恰恰是中国最不具竞争力的层级。但在标准DRAM和NAND——供给CXL内存池和GPU直连闪存的层级——中国是一股日益增长的力量。驱动五层堆栈的内存短缺,部分上是一个中国国产产能可以缓解的西方问题,至少在较低层级如此。


第4层:GPU直连闪存——深度池

NVIDIA的Storage-Next计划创造了全新层级:GPU可以直接访问的闪存。

Kioxia GP Series:使用XL-FLASH的超高IOPS SSD,512字节粒度GPU直连访问(标准SSD是4KB)。

Kioxia CM9:25.6 TB PCIe 5.0 SSD,专为**上下文内存存储(CMX)**设计——NVIDIA的KV缓存持久化架构。

NVIDIA Dynamo 1.0——刚投产的推理操作系统——协调所有层级之间的数据移动。


改变一切的数学

每Vera Rubin NVL72机架的内存成本(估算)
HBM420.7 TB
$10000K - $16000K
90-94% of cost
CXL Memory50-100 TB
$250K - $1000K
2-6% of cost
GPU-Direct Flash100+ TB
$10K - $50K
<1% of cost
Total memory per rack:$10M - $17M
HBM4 is <20% of total capacity but 90%+ of total cost. CXL and flash provide the capacity HBM can't afford.

没人在谈论的部分:单个AI机架的内存账单可能接近或超过GPU成本。

  • HBM4: 20.7 TB,$500-800/GB = $1000-1600万
  • CXL: 50-100 TB,$5-10/GB = $25-100万
  • GPU直连闪存: 100+ TB,$0.10-0.50/GB = $1-5万

总计:每机架$1000-1700万。HBM4不到总容量的20%,但占总成本的90%以上。

HBM4 = 20%容量,90%成本。整个CXL + 闪存基础设施的存在,就是为了避免再往HBM里多投一美元。

这意味着什么

AI内存层级不再是GPU → DRAM → SSD。而是:

SRAM(速度)→ HBM(计算)→ CXL(容量)→ HBF(桥梁)→ GPU直连闪存(深度)

对于AI实验室,这改变了采购逻辑:从”买多少GPU”变成”内存架构是什么”。训练机架(HBM密集、带宽优化)和推理机架(CXL密集、容量优化)将是根本不同的配置。

瓶颈从来不是算力。一直是内存。现在内存的每一层都在同时重建。

Confidence:
High
Medium
Low
1.
Vera Rubin NVL72:每GPU 288GB HBM4,20.5 TB/s带宽,72颗GPU聚合1,580 TB/s。
Source: NVIDIAsurfaced 2026年下半年
ab46b3ae
2.
Marvell Structera S 30260:260通道CXL交换机,实现机架级内存池化。
Source: Marvellsurfaced 2026年3月
4377cff7
3.
Kioxia GP Series:通过NVIDIA Storage-Next实现GPU直连闪存,512字节粒度。
Source: HPCwiresurfaced 2026年3月
3f5a1886

获取信号,而非噪音

最新分析直达收件箱。无垃圾邮件,随时退订。