SGNL Intelligence.
EN 中文
3 min read

HBM4 良率博弈:更多显存、更低功耗、更便宜的硅片 —— 三者兼得

HBM4NVIDIAAMDSamsungMemorySupply ChainVera RubinMI455X

AI 芯片大战中有个问题没人在问:那些速度不够快、达不到 NVIDIA 标准的 HBM4 芯粒去哪了?

这个问题的答案,颠覆了我们对 AMD 竞争地位的认知。

NVIDIA 的 Vera Rubin GPU 要求 HBM4 显存以每引脚 10 Gbps 的速度运行 —— 比 JEDEC 行业标准中间值快约 56%。三星 HBM4 产出中只有最快的 20-30% 能达到这个速度。剩下的呢?它们都是完好的芯片,只是跑不到黄仁勋要求的速度。

AMD 的 MI455X 只需要 6.5 Gbps。这是 JEDEC 标准的最低门槛。每一颗通过基本功能测试的芯粒都能用。

这不是一个技术注脚,而是当前半导体行业最重要的供应链不对称。


速度分选抽奖

三星制造 HBM4 时,每片晶圆产出的芯粒速度呈钟形分布。有些跑得飞快,大多数落在中间,有些勉强及格。芯粒能稳定运行的速度决定了它的”档位” —— 也决定了它的价格。

HBM4 各速度档位的估算良率
6.4 Gbps
JEDEC floor
~88%
AMD MI455X zone
8.0 Gbps
JEDEC mid
~68%
No dedicated buyer
9.6 Gbps
JEDEC high
~48%
No dedicated buyer
10 Gbps
Above spec
~25%
NVIDIA Vera Rubin zone
13 Gbps
Samsung peak
~7%
Marketing only
Estimated yield at each speed bin. Based on semiconductor industry log-normal distribution norms. Samsung has not disclosed actuals.

可以类比咖啡评级系统。三星种豆子(制造晶圆)。最好的 20-30% 被标为”精品级”,以高价发给 NVIDIA。接下来的 50-60% 是”商业级” —— 品质很好,只是不是那批里最顶尖的。这就是 AMD 的供应池。

最底部约 12% 无法通过任何 HBM4 速度档位的认证。在堆叠前未通过 KGD(已知良品)测试的单颗 DRAM 芯粒理论上可以作为普通 DRAM 回收,但 HBM 芯粒物理结构不同(TSV 通孔、不同的 I/O 布局),实际回收并不现实。一旦堆叠键合完成,单颗坏芯粒就会导致整个封装报废 —— 键合后的 HBM 堆叠无法拆解。最顶部 5-7% 能跑到 13 Gbps 的,基本只出现在三星的宣传材料里。

NVIDIA 需要最快的 20-30% HBM4 良率。AMD 使用最低速度档。三星每为 NVIDIA 生产一片晶圆,就会产生 2-3 倍数量的 AMD 可用芯粒。

两种哲学,同一片晶圆

NVIDIA 和 AMD 为同一代 AI 芯片构建了截然不同的显存架构 —— 这个选择带来连锁效应。

Vera Rubin vs MI455X:同一问题的两种解法
MetricNVIDIA Vera RubinAMD MI455X
HBM4 Speed10 Gbps~6.5 Gbps
Stacks per GPU812
Total Bandwidth20.5 TB/s19.6 TB/s
Total I/O Power100% (baseline)~63% of NVIDIA
Yield RequirementTop 20-30%~80-85% (floor bin)
HBM4 Capacity288 GB432 GB
JEDEC ComplianceAbove specAt JEDEC floor
Highlighted cells indicate advantage. I/O power scales with frequency squared (P=I²R).

NVIDIA 选择了速度路线:8 个堆栈以 10 Gbps 运行,达到 20.5 TB/s 带宽。堆栈少意味着中介层更简单。但速度要求筛掉了三星 70-80% 的产出。

AMD 选择了宽度路线:12 个堆栈以仅 6.5 Gbps 运行,达到 19.6 TB/s。更多堆栈意味着更大的 CoWoS-L 中介层、更复杂的封装,以及系统级良率风险。但每一颗功能正常的 HBM4 芯粒都能使用。

总带宽几乎相同。取舍截然不同。


物理税

接下来才是精彩的部分。高速存储器接口的功耗大致与数据速率的平方成正比 —— 这是由信号完整性、均衡和端接开销在更高频率下的叠加效应驱动的。

HBM4 跑到 10 Gbps 的功耗不是比 6.5 Gbps 多 54%。每个引脚的功耗大约是 (10/6.5)² = 2.37 倍。这是物理定律 —— 不是设计选择。

但 AMD 用了 12 个堆栈而 NVIDIA 只用 8 个。更多堆栈意味着更多 I/O 引脚,这部分抵消了单引脚的功耗优势。完整核算如下:

  • NVIDIA:8 堆栈 × (10 Gbps)² = 800 相对功耗单位
  • AMD:12 堆栈 × (6.5 Gbps)² = 507 相对功耗单位

净结果:AMD 的 HBM4 I/O 总功耗约为 NVIDIA 的 63% —— 尽管多用了 50% 的堆栈,仍然节省了 37% 的功耗。频率平方的优势压过了堆栈数量的劣势。

这 37% 的功耗差距直接转化为散热余量。NVIDIA 必须散掉的热量,AMD 根本不会产生。在带宽受限的 AI 推理任务上,这个余量可以决定你是卡在显存上还是卡在计算上。

AMD 工程师公开证实,每一代 Instinct 加速器的显存控制器都是专门为一代 HBM 设计的。MI300 适配 HBM3 的 5.2 Gbps,MI350 适配 HBM3E 的 8 Gbps,MI455X 适配 HBM4 —— 选择的速度档位是优化能效比的最佳点,而非三星标称的峰值 13 Gbps。这是精心设计的架构,不是妥协。

美妙的不对称

接下来是让供应链分析师头脑发麻的部分。

一片三星晶圆如何同时服务两个竞争对手
12%
58%
25%
5%
Defective
Dies that fail basic testing
AMD / OpenAI Pool
Floor-bin: 6.4-9.6 Gbps (JEDEC range)
NVIDIA Pool
Top-bin: 10+ Gbps (above JEDEC)
Peak Bin
13 Gbps: marketing/testing only
Key insight: NVIDIA's demand for top-bin HBM4 creates AMD's supply. The more wafers Samsung runs for NVIDIA, the more floor-bin dies become available for AMD at lower cost.

NVIDIA 对高速档位 HBM4 的需求改善了 AMD 的供应。这不是比喻 —— 这是算术。

三星每启动一批新晶圆,大约:

  • 25% 的芯粒达到 NVIDIA 的 10+ Gbps 规格
  • 58% 的芯粒落在 6.4-9.6 Gbps 的 JEDEC 范围内 —— AMD 的池子
  • 约 12% 无法通过任何速度档位认证(估算值 —— 厂商不公布确切数字;复合良率模型显示 95% 单芯粒良率对应 8-Hi 堆叠 66% 良率)
  • 5% 达到 13 Gbps(三星的炫技,没人批量采购)

NVIDIA 越激进地推进 Vera Rubin,涌入 AMD 市场的低速档 HBM4 就越多。因为低速档芯粒充裕,每 GB 的成本更低。AMD 以量大优惠的价格拿到了被 NVIDIA 规格筛选器”淘汰”的完好硅片。

三星也赢了。如果没有 AMD(可能还有 OpenAI)购买低速档芯粒,三星 HBM4 的有效良率(可售产品占比)只有可怜的 25-30%。有了 AMD 消化低速档,三星的有效良率跃升至 85-90%。这个三角关系中的每个客户都让其他客户的经济模型更优。

三星的有效 HBM4 良率:仅 NVIDIA 一家客户时约 25%。NVIDIA + AMD 双客户时约 85-90%。这个三方供应关系不是慈善 —— 而是相互保障的盈利。

NVIDIA 延期的真正含义

当 TrendForce 报道 Vera Rubin 推迟约一个季度(至 2026 年 Q4 或 2027 年 Q1)时,他们将其归因于”HBM4 供应限制”。现在你明白这到底意味着什么了。

NVIDIA 要求每引脚速度超过 11 Gbps —— 有报道称最初目标是 13 Gbps。三星、SK 海力士和美光都不得不重新设计各自的 HBM4 产品。延期不是因为三星造不出 HBM4,而是因为三星造不出足够快的 HBM4 来满足黄仁勋。

这就是”高速档采购陷阱”。NVIDIA 的规格要求最快的 20-30% 良率。当这些良率在量产中达不到时,NVIDIA 要么:

  1. 等待 —— 接受延期,等三星改善工艺成熟度
  2. 放宽规格 —— NVIDIA 已经从 13 Gbps 降到了约 10 Gbps
  3. 增加供应商 —— GTC 上 48 小时内从 2 家 HBM4 供应商增加到 3 家

黄仁勋三个都选了。而每一个选择都让 AMD 的处境更有利。


NVIDIA 对速度的追求正在无意间补贴 AMD

让我们把这个补贴机制讲清楚,因为它反直觉得很美妙。

第一步:NVIDIA 要求 10 Gbps HBM4。 三星必须投产更多晶圆才能获得足够的高速档芯粒。如果 NVIDIA 需要 100 万颗高速档芯粒,三星必须生产约 400 万颗(按 ~25% 良率计算)。

第二步:另外 300 万颗芯粒不会消失。 它们是功能完好的 HBM4 —— 只是速度在 6-9 Gbps 而非 10+ Gbps。在 AMD 成为买家之前,这些基本是废品。三星要么降级处理,要么承担损失。

第三步:AMD 出现了,说”这些我全要”。 AMD 的 MI455X 只需要 6.5 Gbps。这 300 万颗”淘汰品”正是 AMD 想要的。由于供应充裕(低速档是高速档的 3 倍),AMD 有议价能力。三星乐于出售 —— 每颗卖出的芯粒都是纯利润回收。

第四步:NVIDIA 买得越多,AMD 拿到的就越多。 如果 NVIDIA 将 Vera Rubin 订单翻倍,三星就得将晶圆投产量翻倍。高速档芯粒翻倍给 NVIDIA —— 但低速档芯粒也翻倍给 AMD。NVIDIA 实际上在资助三星的晶圆生产,而 AMD 在捡溢出的便宜。

第五步:随着 NVIDIA 规模扩大,AMD 的单颗成本下降。 NVIDIA 承担了研发成本和工艺改进压力(三星必须不断提高良率来满足黄仁勋),低速档因此变得更可靠、更便宜。AMD 的 HBM4 变好,恰恰是因为 NVIDIA 持续要求更多。

这就是无意间的补贴。NVIDIA 为前沿买单。AMD 收割良率曲线中间段。三星从双方获利。消费者得到了两个有竞争力的 AI 芯片平台而非一家独大 —— 这一切源自一条良率曲线和两种截然不同的显存架构。

这里有一个历史类比。在 x86 的早期,英特尔将同一片晶圆上的高速芯片卖作高端奔腾,低速芯片卖作平价赛扬 —— 更低的速度档、更低的价格、同样的硅片。平价芯片不是劣质设计,它们是高端产品所定义的良率曲线的自然产出。三十年后,AMD 正在用 HBM4 速度分选做同样的事 —— 只不过这次,他们把整个 GPU 架构设计成围绕别人的良率曲线最佳点

未解之谜

还有一个我们不知道的变量:OpenAI 用的是什么速度档?

据报道,三星与 OpenAI 签署了独家 HBM4 供应协议。如果 OpenAI 在制造自研 AI 芯片(而非购买 NVIDIA GPU),他们可能也像 AMD 一样选择低速档 HBM4。那将形成三方分配:

  • NVIDIA: 最快的 20-30%(10+ Gbps)
  • AMD + OpenAI: 剩余的 60-70%(6.4-9.6 Gbps)

如果属实,NVIDIA 激进的速度要求无意间为低速档 HBM4 创造了一个买方市场 —— 正是 AMD 和 OpenAI 所需要的市场。


值得关注的信号

这个故事有三个关键指标值得跟踪:

1. 三星 HBM4 良率报告。 任何速度档位分布数据的披露都会改变计算。如果三星的工艺成熟使 10 Gbps 良率提升到 40-50%,NVIDIA 的供应瓶颈缓解 —— 但 AMD 的成本优势也会缩小(可便宜获得的”淘汰”芯粒减少了)。

2. AMD MI455X 封装良率。 AMD 的 12 堆栈方案用芯粒级良率优势换取了封装复杂性。在一个 CoWoS 中介层上放 12 个 HBM4 堆栈比放 8 个更难。如果封装良率低,芯粒级的优势就会被吃掉。

3. OpenAI 的 HBM4 规格披露。 如果 OpenAI 也像 AMD 一样选择低速档,三星的分配计算就变得复杂 —— 三个客户争抢同样 60-70% 的产出,而只有 NVIDIA 能用最快的 25%。

AI 芯片战争不仅是谁设计了最好的 GPU,更是谁为自己的显存架构设计了对良率曲线的最佳生存策略。

市场将 AMD 的显存策略定价为弱点 —— 单 GPU 堆栈数更多、每引脚速度更低、依赖三星的低速档。但良率曲线说,这是一种优势。

AMD 押注了良率底部。这个赌注看起来越来越聪明。

Confidence:
High
Medium
Low
1.
Samsung's HBM4 uses 6th-generation 10nm-class DRAM process (1c) with a 4nm logic base die, delivering up to 13 Gbps processing speed and maximum 3.3 TB/s bandwidth per stack — exceeding JEDEC industry standards.
Source: AMD Newsroomsurfaced Mar 2026
9360809e
2.
Samsung signed a Memorandum of Understanding (MOU) with AMD to be the primary HBM4 supplier for the AMD Instinct MI455X GPU, formalizing Samsung's role as the lead HBM4 partner.
Source: AMD Newsroomsurfaced Mar 2026
8dd0a9b5
3.
To achieve its 20.5 TB/s bandwidth with 8 stacks, Vera Rubin requires an HBM4 pin speed of 10 Gbps—roughly 54% faster than AMD's 6.5 Gbps MI455X implementation.
Source: System Analystsurfaced Mar 2026
67ed97e9

获取信号,而非噪音

最新分析直达收件箱。无垃圾邮件,随时退订。