2026-03-17 1 min read

AI内存堆栈：现状与未来

内存HBM4CXLSRAMGroqNVIDIA推理KioxiaMarvellSK Hynix

所有人都在谈论GPU。没人谈论内存账单。

一个NVIDIA Vera Rubin NVL72机架包含72颗GPU，每颗配备288 GB HBM4。总计20.7 TB——这是有史以来制造的最快、最昂贵的内存——仅HBM4内存组件就占每个机架成本的约1000-1600万美元。

但真正让CFO头疼的是：20 TB不够。当你的模型同时服务1000个百万token上下文窗口的用户时，KV缓存就需要100+ TB。这些数据去哪了？

答案是：AI产业正在构建一个全新的五层内存层级——每一层都有2026年出货的新产品。

五层内存堆栈

2026年AI内存层级

SRAM (Groq LPU)Embedded/GB

On-chip

Capacity: ~60 GB/rackLatency: <1 ns

Decode-only. Eliminates HBM bottleneck for token generation. 25% of Jensen's data center recipe.

HBM4$500-800/GB

20 TB/s

Capacity: 20.7 TB/rackLatency: ~10-20 ns

Compute layer. 288 GB per Vera Rubin GPU × 72 = 20.7 TB/rack. Fastest, scarcest, 90%+ of memory cost.

CXL Memory$5-10/GB

~50-128 GB/s

Capacity: 50-100 TB/rackLatency: ~100-200 ns

KV cache overflow. Marvell 260-lane CXL switch + Penguin 11 TB server shipping now. 10x faster than NVMe.

HBF (SK Hynix)TBD/GB

TBD

Capacity: TBDLatency: TBD

Bridge layer. Memory vendor approach to the HBM-SSD gap. Complementary or competitive with CXL — TBD.

GPU-Direct Flash$0.10-0.50/GB

~7-50 GB/s

Capacity: 100+ TB/rackLatency: ~10-100 µs

Cold KV cache, checkpoints, model weights. Kioxia GP Series: 512-byte GPU-direct access. NVIDIA Storage-Next.

这不是理论。图表中的每一层都有正在出货或送样的硬件。

第1层：SRAM——速度之王

黄仁勋的GTC架构将推理分为两个阶段：预填充（理解你的提示）和解码（生成回答）。预填充受限于算力——需要GPU。解码受限于内存带宽——需要极致速度。

Groq的LPU将一切保持在片上SRAM中——完全无需片外内存访问。黄仁勋说他会在每个数据中心部署**“25% Groq，75% Vera Rubin”**。

Groq3 LPU由三星晶圆代工用4nm制造，Q3 2026开始向NVIDIA出货。一个Groq机架约60 GB SRAM——容量微小，但速度无与伦比。

SRAM用于解码速度。HBM用于计算带宽。同一次推理请求的两个不同阶段，用两种不同的内存。

第2层：HBM4——计算引擎

HBM4是主力。Vera Rubin每GPU 288 GB，带宽20.5 TB/s。72颗GPU = 每机架20.7 TB，聚合带宽1,580 TB/s。

三家内存厂商（三星、SK海力士、美光）全部合格。三星将HBM产量提高三倍，一半用于HBM4。三星HBM4E规格：每堆栈4 TB/s，16 Gbps，48 GB。

但HBM有一个根本问题：太贵了，无法为容量扩展。 以$500-800/GB计算，100 TB KV缓存要$5000-8000万。没人会这样做。

这就是HBM以下每一层存在的原因。

第3层：CXL内存——容量担当

HBM的$500/GB和NVMe的$0.10/GB之间，以前什么都没有。CXL填补了这个空白。

CXL让你把TB级DDR5内存插入服务器，GPU可以一致性访问——比NVMe快10倍，每GB仅**$5-10**。

三件事让CXL从理论变为现实：

1. CPU门槛已跨越。 AMD EPYC Turin和Intel Xeon 6都支持CXL 2.0。Xeon 6是DGX Rubin NVL8内部的CPU。

2. 交换机到了。 Marvell刚发布Structera S 30260——260通道CXL交换机，实现机架级内存池化。首个CXL交换产品。

3. 服务器存在了。 Penguin Solutions MemoryAI：首个量产CXL KV缓存服务器，11 TB。研究表明比RDMA吞吐量提升7.35倍。

Google已在生产环境部署CXL控制器。

CXL版本演进——为什么2.0是关键

CXL 1.1

2022

Host → Device only

CPU can read/write device memory. No pooling. Shipped with Intel Sapphire Rapids, AMD Genoa.

PCIe 5.0

CXL 2.0

2023-24

Memory Pooling + SwitchingGPU-direct

Multiple hosts share a CXL memory pool via switches. GPU-direct access possible. AMD Turin + Intel Xeon 6 ship this.

PCIe 5.0

CXL 3.0

2025

Fabric + Peer-to-PeerGPU-direct

Multi-level switching, fabric topologies, coherent P2P across hosts. Full rack-scale memory fabric.

PCIe 6.0

CXL 4.0

Nov 2025

128 GT/s + Bundled PortsGPU-direct

Doubles bandwidth. Bundled ports for 1.5 TB/s connections. Multi-rack memory pooling at 100+ TB scale.

PCIe 7.0

第3.5层：HBF——内存厂商的桥梁

SK海力士正在开发HBF（高带宽扇出）——从内存厂商侧桥接HBM和SSD。CXL的表亲：同样的定位，不同的路径。

蚕食问题

在进入闪存层之前，让我们先看全局。因为五层堆栈只有在理解全球内存供应正在发生什么之后才有意义。

每GB内存的硅晶圆消耗量

Standard DDR51x

1 GB DDR5 = 1x wafer area (baseline)

GDDR7 (GPU memory)1.7x

1.7x wafer area per GB vs DDR5

HBM4 (AI accelerator)3.5x

3-4x wafer area per GB — each HBM chip cannibalizes 3-4 DDR5 chips

Source: TrendForce. Every 1 GB of HBM4 produced consumes the silicon that could have made 3-4 GB of DDR5 for laptops and phones.

一个关键数字解释了整个内存危机：HBM每GB消耗的硅晶圆是标准DDR5的3-4倍。 每制造一颗用于Vera Rubin GPU的HBM4芯片，就会蚕食原本可以生产3-4颗笔记本或智能手机内存芯片的硅片。

全球DRAM晶圆产能约为每月200万片300mm晶圆投片——约占所有半导体产能的22%。2026年，AI工作负载（HBM + GDDR7）将消耗所有DRAM晶圆产能的20%（TrendForce）。数据中心总计将消耗2026年生产的所有内存芯片的70%。

DRAM去向：服务器/DC vs 手机 vs PC

2024

Server/DC
38%

Mobile
35%

PC
22%

2026E

Server/DC
48%

Mobile
28%

PC
18%

Server/DC

Mobile

Other

Server/DC share growing from 38% to 48% of DRAM bits shipped. Mobile and PC shrinking. AI is cannibalizing consumer memory.

变化是剧烈的。2024年服务器占DRAM的38%。到2026年是48%——而手机从35%降到28%，PC从22%降到18%。AI正在蚕食原本用于你手机和笔记本的内存。

更严重的是：OpenAI的Stargate项目——仅仅一个客户——就可能消耗全球DRAM产量的40%，据报与三星和SK海力士签订了每月90万片晶圆的协议。

一个项目。全球DRAM产量的40%。这就是SK集团会长说晶圆短缺将持续到2030年的原因。

内存价格超级周期

供需失衡创造了十年来最极端的内存定价：

DRAM： 2026年初定价比2025年同期高7-8倍。今年没有价格回落预期。
NAND： 三星Q1涨价100%，计划Q2再涨100%。TrendForce预测90%的季环比飙升。
三星的悖论： 他们的内存业务利润丰厚，但高内存价格正在压垮智能手机部门——营业利润同比下降60%。制造内存的公司正在被自己内存的价格杀死。
Phison 转向预付款模式——客户必须先付款才能获得供应。
Gartner预测入门级PC市场将在2028年前消失，因为内存成本使廉价笔记本无法盈利。

三星的不可能处境浓缩为一句话：他们的内存部门将HBM产量提高三倍并将NAND价格提高100%，如此成功以至于正在摧毁他们智能手机部门的盈利能力。制造内存的公司正在被自己内存的价格杀死。

中国变量

一个被大多数西方分析师低估的供应变量：中国正在以惊人速度建设自己的内存产业。

长鑫存储（CXMT） 2024年将DRAM产能从10万片扩展到20万片晶圆/月——目标是2026年达到30万片。这大约占全球DRAM晶圆基数的13-15%。联想已经在采用CXMT的LPDDR5X模组。

长江存储（YMTC） 正在量产232层和294层Xtacking 4.0 NAND，目标是2026年占全球NAND市场15%。关键转折：YMTC第三座武汉工厂将于2027年投产，50%产能转向DRAM生产——从NAND多元化进入中国最有增长空间的内存类型。

到2027年，中国DRAM市场份额预计将达到10-11%。

各内存类型的中国风险分析：

HBM： 最低风险——需要中国无法复制的先进封装（TSV、CoWoS）
DRAM： 中等风险——CXMT在DDR5/LPDDR上是真正的竞争对手
NAND： 最高风险——YMTC已占15%且在增长

AI内存堆栈最重要的HBM层——恰恰是中国最不具竞争力的层级。但在标准DRAM和NAND——供给CXL内存池和GPU直连闪存的层级——中国是一股日益增长的力量。驱动五层堆栈的内存短缺，部分上是一个中国国产产能可以缓解的西方问题，至少在较低层级如此。

第4层：GPU直连闪存——深度池

NVIDIA的Storage-Next计划创造了全新层级：GPU可以直接访问的闪存。

Kioxia GP Series：使用XL-FLASH的超高IOPS SSD，512字节粒度GPU直连访问（标准SSD是4KB）。

Kioxia CM9：25.6 TB PCIe 5.0 SSD，专为**上下文内存存储（CMX）**设计——NVIDIA的KV缓存持久化架构。

NVIDIA Dynamo 1.0——刚投产的推理操作系统——协调所有层级之间的数据移动。

改变一切的数学

每Vera Rubin NVL72机架的内存成本（估算）

HBM420.7 TB

$10000K - $16000K

90-94% of cost

CXL Memory50-100 TB

$250K - $1000K

2-6% of cost

GPU-Direct Flash100+ TB

$10K - $50K

<1% of cost

Total memory per rack:$10M - $17M

HBM4 is <20% of total capacity but 90%+ of total cost. CXL and flash provide the capacity HBM can't afford.

没人在谈论的部分：单个AI机架的内存账单可能接近或超过GPU成本。

HBM4: 20.7 TB，$500-800/GB = $1000-1600万
CXL: 50-100 TB，$5-10/GB = $25-100万
GPU直连闪存: 100+ TB，$0.10-0.50/GB = $1-5万

总计：每机架$1000-1700万。HBM4不到总容量的20%，但占总成本的90%以上。

HBM4 = 20%容量，90%成本。整个CXL + 闪存基础设施的存在，就是为了避免再往HBM里多投一美元。

这意味着什么

AI内存层级不再是GPU → DRAM → SSD。而是：

SRAM（速度）→ HBM（计算）→ CXL（容量）→ HBF（桥梁）→ GPU直连闪存（深度）

对于AI实验室，这改变了采购逻辑：从”买多少GPU”变成”内存架构是什么”。训练机架（HBM密集、带宽优化）和推理机架（CXL密集、容量优化）将是根本不同的配置。

瓶颈从来不是算力。一直是内存。现在内存的每一层都在同时重建。

Confidence:

High

Medium

Low

NVIDIA Vera Rubin GPU delivers 288GB HBM4 with 20.5 TB/s memory bandwidth per GPU. NVL72 rack provides 1,580 TB/s aggregate GPU memory bandwidth (2.74x vs GB300 NVL72's 576 TB/s). Features NVLink 6 at 3.6 TB/s bidirectional. Shipping 2026.

Source: NVIDIAsurfaced Mar 2026

ab46b3ae

Marvell announced the Structera S 30260, a 260-lane CXL switch enabling rack-level memory pooling. Works with Structera A near-memory accelerators, Structera X memory-expansion controllers, and Alaska P PCIe/CXL retimers.

Source: @MarvellTechsurfaced Mar 2026

4377cff7

Kioxia has announced the development of the KIOXIA GP Series, a Super High IOPS SSD designed to enable GPUs to directly access high-speed flash memory as an expansion to HBM in AI systems.

Source: Andrew Jollysurfaced Mar 2026

3f5a1886