2026-03-21 3 min read

HBM4 良率博弈：更多显存、更低功耗、更便宜的硅片 —— 三者兼得

HBM4NVIDIAAMDSamsungMemorySupply ChainVera RubinMI455X

AI 芯片大战中有个问题没人在问：那些速度不够快、达不到 NVIDIA 标准的 HBM4 芯粒去哪了？

这个问题的答案，颠覆了我们对 AMD 竞争地位的认知。

NVIDIA 的 Vera Rubin GPU 要求 HBM4 显存以每引脚 10 Gbps 的速度运行 —— 比 JEDEC 行业标准中间值快约 56%。三星 HBM4 产出中只有最快的 20-30% 能达到这个速度。剩下的呢？它们都是完好的芯片，只是跑不到黄仁勋要求的速度。

AMD 的 MI455X 只需要 6.5 Gbps。这是 JEDEC 标准的最低门槛。每一颗通过基本功能测试的芯粒都能用。

这不是一个技术注脚，而是当前半导体行业最重要的供应链不对称。

速度分选抽奖

三星制造 HBM4 时，每片晶圆产出的芯粒速度呈钟形分布。有些跑得飞快，大多数落在中间，有些勉强及格。芯粒能稳定运行的速度决定了它的”档位” —— 也决定了它的价格。

HBM4 各速度档位的估算良率

6.4 Gbps

JEDEC floor

~88%

AMD MI455X zone

8.0 Gbps

JEDEC mid

~68%

No dedicated buyer

9.6 Gbps

JEDEC high

~48%

No dedicated buyer

10 Gbps

Above spec

~25%

NVIDIA Vera Rubin zone

13 Gbps

Samsung peak

~7%

Marketing only

Estimated yield at each speed bin. Based on semiconductor industry log-normal distribution norms. Samsung has not disclosed actuals.

可以类比咖啡评级系统。三星种豆子（制造晶圆）。最好的 20-30% 被标为”精品级”，以高价发给 NVIDIA。接下来的 50-60% 是”商业级” —— 品质很好，只是不是那批里最顶尖的。这就是 AMD 的供应池。

最底部约 12% 无法通过任何 HBM4 速度档位的认证。在堆叠前未通过 KGD（已知良品）测试的单颗 DRAM 芯粒理论上可以作为普通 DRAM 回收，但 HBM 芯粒物理结构不同（TSV 通孔、不同的 I/O 布局），实际回收并不现实。一旦堆叠键合完成，单颗坏芯粒就会导致整个封装报废 —— 键合后的 HBM 堆叠无法拆解。最顶部 5-7% 能跑到 13 Gbps 的，基本只出现在三星的宣传材料里。

NVIDIA 需要最快的 20-30% HBM4 良率。AMD 使用最低速度档。三星每为 NVIDIA 生产一片晶圆，就会产生 2-3 倍数量的 AMD 可用芯粒。

两种哲学，同一片晶圆

NVIDIA 和 AMD 为同一代 AI 芯片构建了截然不同的显存架构 —— 这个选择带来连锁效应。

Vera Rubin vs MI455X：同一问题的两种解法

Metric	NVIDIA Vera Rubin	AMD MI455X
HBM4 Speed	10 Gbps	~6.5 Gbps
Stacks per GPU	8	12
Total Bandwidth	20.5 TB/s	19.6 TB/s
Total I/O Power	100% (baseline)	~63% of NVIDIA
Yield Requirement	Top 20-30%	~80-85% (floor bin)
HBM4 Capacity	288 GB	432 GB
JEDEC Compliance	Above spec	At JEDEC floor

Highlighted cells indicate advantage. I/O power scales with frequency squared (P=I²R).

NVIDIA 选择了速度路线：8 个堆栈以 10 Gbps 运行，达到 20.5 TB/s 带宽。堆栈少意味着中介层更简单。但速度要求筛掉了三星 70-80% 的产出。

AMD 选择了宽度路线：12 个堆栈以仅 6.5 Gbps 运行，达到 19.6 TB/s。更多堆栈意味着更大的 CoWoS-L 中介层、更复杂的封装，以及系统级良率风险。但每一颗功能正常的 HBM4 芯粒都能使用。

总带宽几乎相同。取舍截然不同。

物理税

接下来才是精彩的部分。高速存储器接口的功耗大致与数据速率的平方成正比 —— 这是由信号完整性、均衡和端接开销在更高频率下的叠加效应驱动的。

HBM4 跑到 10 Gbps 的功耗不是比 6.5 Gbps 多 54%。每个引脚的功耗大约是 (10/6.5)² = 2.37 倍。这是物理定律 —— 不是设计选择。

但 AMD 用了 12 个堆栈而 NVIDIA 只用 8 个。更多堆栈意味着更多 I/O 引脚，这部分抵消了单引脚的功耗优势。完整核算如下：

NVIDIA：8 堆栈 × (10 Gbps)² = 800 相对功耗单位
AMD：12 堆栈 × (6.5 Gbps)² = 507 相对功耗单位

净结果：AMD 的 HBM4 I/O 总功耗约为 NVIDIA 的 63% —— 尽管多用了 50% 的堆栈，仍然节省了 37% 的功耗。频率平方的优势压过了堆栈数量的劣势。

这 37% 的功耗差距直接转化为散热余量。NVIDIA 必须散掉的热量，AMD 根本不会产生。在带宽受限的 AI 推理任务上，这个余量可以决定你是卡在显存上还是卡在计算上。

AMD 工程师公开证实，每一代 Instinct 加速器的显存控制器都是专门为一代 HBM 设计的。MI300 适配 HBM3 的 5.2 Gbps，MI350 适配 HBM3E 的 8 Gbps，MI455X 适配 HBM4 —— 选择的速度档位是优化能效比的最佳点，而非三星标称的峰值 13 Gbps。这是精心设计的架构，不是妥协。

美妙的不对称

接下来是让供应链分析师头脑发麻的部分。

一片三星晶圆如何同时服务两个竞争对手

12%

58%

25%

Defective

Dies that fail basic testing

AMD / OpenAI Pool

Floor-bin: 6.4-9.6 Gbps (JEDEC range)

NVIDIA Pool

Top-bin: 10+ Gbps (above JEDEC)

Peak Bin

13 Gbps: marketing/testing only

Key insight: NVIDIA's demand for top-bin HBM4 creates AMD's supply. The more wafers Samsung runs for NVIDIA, the more floor-bin dies become available for AMD at lower cost.

NVIDIA 对高速档位 HBM4 的需求改善了 AMD 的供应。这不是比喻 —— 这是算术。

三星每启动一批新晶圆，大约：

25% 的芯粒达到 NVIDIA 的 10+ Gbps 规格
58% 的芯粒落在 6.4-9.6 Gbps 的 JEDEC 范围内 —— AMD 的池子
约 12% 无法通过任何速度档位认证（估算值 —— 厂商不公布确切数字；复合良率模型显示 95% 单芯粒良率对应 8-Hi 堆叠 66% 良率）
5% 达到 13 Gbps（三星的炫技，没人批量采购）

NVIDIA 越激进地推进 Vera Rubin，涌入 AMD 市场的低速档 HBM4 就越多。因为低速档芯粒充裕，每 GB 的成本更低。AMD 以量大优惠的价格拿到了被 NVIDIA 规格筛选器”淘汰”的完好硅片。

三星也赢了。如果没有 AMD（可能还有 OpenAI）购买低速档芯粒，三星 HBM4 的有效良率（可售产品占比）只有可怜的 25-30%。有了 AMD 消化低速档，三星的有效良率跃升至 85-90%。这个三角关系中的每个客户都让其他客户的经济模型更优。

三星的有效 HBM4 良率：仅 NVIDIA 一家客户时约 25%。NVIDIA + AMD 双客户时约 85-90%。这个三方供应关系不是慈善 —— 而是相互保障的盈利。

NVIDIA 延期的真正含义

当 TrendForce 报道 Vera Rubin 推迟约一个季度（至 2026 年 Q4 或 2027 年 Q1）时，他们将其归因于”HBM4 供应限制”。现在你明白这到底意味着什么了。

NVIDIA 要求每引脚速度超过 11 Gbps —— 有报道称最初目标是 13 Gbps。三星、SK 海力士和美光都不得不重新设计各自的 HBM4 产品。延期不是因为三星造不出 HBM4，而是因为三星造不出足够快的 HBM4 来满足黄仁勋。

这就是”高速档采购陷阱”。NVIDIA 的规格要求最快的 20-30% 良率。当这些良率在量产中达不到时，NVIDIA 要么：

等待 —— 接受延期，等三星改善工艺成熟度
放宽规格 —— NVIDIA 已经从 13 Gbps 降到了约 10 Gbps
增加供应商 —— GTC 上 48 小时内从 2 家 HBM4 供应商增加到 3 家

黄仁勋三个都选了。而每一个选择都让 AMD 的处境更有利。

NVIDIA 对速度的追求正在无意间补贴 AMD

让我们把这个补贴机制讲清楚，因为它反直觉得很美妙。

第一步：NVIDIA 要求 10 Gbps HBM4。 三星必须投产更多晶圆才能获得足够的高速档芯粒。如果 NVIDIA 需要 100 万颗高速档芯粒，三星必须生产约 400 万颗（按 ~25% 良率计算）。

第二步：另外 300 万颗芯粒不会消失。 它们是功能完好的 HBM4 —— 只是速度在 6-9 Gbps 而非 10+ Gbps。在 AMD 成为买家之前，这些基本是废品。三星要么降级处理，要么承担损失。

第三步：AMD 出现了，说”这些我全要”。 AMD 的 MI455X 只需要 6.5 Gbps。这 300 万颗”淘汰品”正是 AMD 想要的。由于供应充裕（低速档是高速档的 3 倍），AMD 有议价能力。三星乐于出售 —— 每颗卖出的芯粒都是纯利润回收。

第四步：NVIDIA 买得越多，AMD 拿到的就越多。 如果 NVIDIA 将 Vera Rubin 订单翻倍，三星就得将晶圆投产量翻倍。高速档芯粒翻倍给 NVIDIA —— 但低速档芯粒也翻倍给 AMD。NVIDIA 实际上在资助三星的晶圆生产，而 AMD 在捡溢出的便宜。

第五步：随着 NVIDIA 规模扩大，AMD 的单颗成本下降。 NVIDIA 承担了研发成本和工艺改进压力（三星必须不断提高良率来满足黄仁勋），低速档因此变得更可靠、更便宜。AMD 的 HBM4 变好，恰恰是因为 NVIDIA 持续要求更多。

这就是无意间的补贴。NVIDIA 为前沿买单。AMD 收割良率曲线中间段。三星从双方获利。消费者得到了两个有竞争力的 AI 芯片平台而非一家独大 —— 这一切源自一条良率曲线和两种截然不同的显存架构。

这里有一个历史类比。在 x86 的早期，英特尔将同一片晶圆上的高速芯片卖作高端奔腾，低速芯片卖作平价赛扬 —— 更低的速度档、更低的价格、同样的硅片。平价芯片不是劣质设计，它们是高端产品所定义的良率曲线的自然产出。三十年后，AMD 正在用 HBM4 速度分选做同样的事 —— 只不过这次，他们把整个 GPU 架构设计成围绕别人的良率曲线最佳点。

未解之谜

还有一个我们不知道的变量：OpenAI 用的是什么速度档？

据报道，三星与 OpenAI 签署了独家 HBM4 供应协议。如果 OpenAI 在制造自研 AI 芯片（而非购买 NVIDIA GPU），他们可能也像 AMD 一样选择低速档 HBM4。那将形成三方分配：

NVIDIA： 最快的 20-30%（10+ Gbps）
AMD + OpenAI： 剩余的 60-70%（6.4-9.6 Gbps）

如果属实，NVIDIA 激进的速度要求无意间为低速档 HBM4 创造了一个买方市场 —— 正是 AMD 和 OpenAI 所需要的市场。

值得关注的信号

这个故事有三个关键指标值得跟踪：

1. 三星 HBM4 良率报告。 任何速度档位分布数据的披露都会改变计算。如果三星的工艺成熟使 10 Gbps 良率提升到 40-50%，NVIDIA 的供应瓶颈缓解 —— 但 AMD 的成本优势也会缩小（可便宜获得的”淘汰”芯粒减少了）。

2. AMD MI455X 封装良率。 AMD 的 12 堆栈方案用芯粒级良率优势换取了封装复杂性。在一个 CoWoS 中介层上放 12 个 HBM4 堆栈比放 8 个更难。如果封装良率低，芯粒级的优势就会被吃掉。

3. OpenAI 的 HBM4 规格披露。 如果 OpenAI 也像 AMD 一样选择低速档，三星的分配计算就变得复杂 —— 三个客户争抢同样 60-70% 的产出，而只有 NVIDIA 能用最快的 25%。

AI 芯片战争不仅是谁设计了最好的 GPU，更是谁为自己的显存架构设计了对良率曲线的最佳生存策略。

市场将 AMD 的显存策略定价为弱点 —— 单 GPU 堆栈数更多、每引脚速度更低、依赖三星的低速档。但良率曲线说，这是一种优势。

AMD 押注了良率底部。这个赌注看起来越来越聪明。

Confidence:

High

Medium

Low

Samsung's HBM4 uses 6th-generation 10nm-class DRAM process (1c) with a 4nm logic base die, delivering up to 13 Gbps processing speed and maximum 3.3 TB/s bandwidth per stack — exceeding JEDEC industry standards.

Source: AMD Newsroomsurfaced Mar 2026

9360809e

Samsung signed a Memorandum of Understanding (MOU) with AMD to be the primary HBM4 supplier for the AMD Instinct MI455X GPU, formalizing Samsung's role as the lead HBM4 partner.