HBM4 良率博弈:更多显存、更低功耗、更便宜的硅片 —— 三者兼得
AI 芯片大战中有个问题没人在问:那些速度不够快、达不到 NVIDIA 标准的 HBM4 芯粒去哪了?
这个问题的答案,颠覆了我们对 AMD 竞争地位的认知。
NVIDIA 的 Vera Rubin GPU 要求 HBM4 显存以每引脚 10 Gbps 的速度运行 —— 比 JEDEC 行业标准中间值快约 56%。三星 HBM4 产出中只有最快的 20-30% 能达到这个速度。剩下的呢?它们都是完好的芯片,只是跑不到黄仁勋要求的速度。
AMD 的 MI455X 只需要 6.5 Gbps。这是 JEDEC 标准的最低门槛。每一颗通过基本功能测试的芯粒都能用。
这不是一个技术注脚,而是当前半导体行业最重要的供应链不对称。
速度分选抽奖
三星制造 HBM4 时,每片晶圆产出的芯粒速度呈钟形分布。有些跑得飞快,大多数落在中间,有些勉强及格。芯粒能稳定运行的速度决定了它的”档位” —— 也决定了它的价格。
可以类比咖啡评级系统。三星种豆子(制造晶圆)。最好的 20-30% 被标为”精品级”,以高价发给 NVIDIA。接下来的 50-60% 是”商业级” —— 品质很好,只是不是那批里最顶尖的。这就是 AMD 的供应池。
最底部约 12% 无法通过任何 HBM4 速度档位的认证。在堆叠前未通过 KGD(已知良品)测试的单颗 DRAM 芯粒理论上可以作为普通 DRAM 回收,但 HBM 芯粒物理结构不同(TSV 通孔、不同的 I/O 布局),实际回收并不现实。一旦堆叠键合完成,单颗坏芯粒就会导致整个封装报废 —— 键合后的 HBM 堆叠无法拆解。最顶部 5-7% 能跑到 13 Gbps 的,基本只出现在三星的宣传材料里。
两种哲学,同一片晶圆
NVIDIA 和 AMD 为同一代 AI 芯片构建了截然不同的显存架构 —— 这个选择带来连锁效应。
| Metric | NVIDIA Vera Rubin | AMD MI455X |
|---|---|---|
| HBM4 Speed | 10 Gbps | ~6.5 Gbps |
| Stacks per GPU | 8 | 12 |
| Total Bandwidth | 20.5 TB/s | 19.6 TB/s |
| Total I/O Power | 100% (baseline) | ~63% of NVIDIA |
| Yield Requirement | Top 20-30% | ~80-85% (floor bin) |
| HBM4 Capacity | 288 GB | 432 GB |
| JEDEC Compliance | Above spec | At JEDEC floor |
NVIDIA 选择了速度路线:8 个堆栈以 10 Gbps 运行,达到 20.5 TB/s 带宽。堆栈少意味着中介层更简单。但速度要求筛掉了三星 70-80% 的产出。
AMD 选择了宽度路线:12 个堆栈以仅 6.5 Gbps 运行,达到 19.6 TB/s。更多堆栈意味着更大的 CoWoS-L 中介层、更复杂的封装,以及系统级良率风险。但每一颗功能正常的 HBM4 芯粒都能使用。
总带宽几乎相同。取舍截然不同。
物理税
接下来才是精彩的部分。高速存储器接口的功耗大致与数据速率的平方成正比 —— 这是由信号完整性、均衡和端接开销在更高频率下的叠加效应驱动的。
HBM4 跑到 10 Gbps 的功耗不是比 6.5 Gbps 多 54%。每个引脚的功耗大约是 (10/6.5)² = 2.37 倍。这是物理定律 —— 不是设计选择。
但 AMD 用了 12 个堆栈而 NVIDIA 只用 8 个。更多堆栈意味着更多 I/O 引脚,这部分抵消了单引脚的功耗优势。完整核算如下:
- NVIDIA:8 堆栈 × (10 Gbps)² = 800 相对功耗单位
- AMD:12 堆栈 × (6.5 Gbps)² = 507 相对功耗单位
净结果:AMD 的 HBM4 I/O 总功耗约为 NVIDIA 的 63% —— 尽管多用了 50% 的堆栈,仍然节省了 37% 的功耗。频率平方的优势压过了堆栈数量的劣势。
这 37% 的功耗差距直接转化为散热余量。NVIDIA 必须散掉的热量,AMD 根本不会产生。在带宽受限的 AI 推理任务上,这个余量可以决定你是卡在显存上还是卡在计算上。
美妙的不对称
接下来是让供应链分析师头脑发麻的部分。
NVIDIA 对高速档位 HBM4 的需求改善了 AMD 的供应。这不是比喻 —— 这是算术。
三星每启动一批新晶圆,大约:
- 25% 的芯粒达到 NVIDIA 的 10+ Gbps 规格
- 58% 的芯粒落在 6.4-9.6 Gbps 的 JEDEC 范围内 —— AMD 的池子
- 约 12% 无法通过任何速度档位认证(估算值 —— 厂商不公布确切数字;复合良率模型显示 95% 单芯粒良率对应 8-Hi 堆叠 66% 良率)
- 5% 达到 13 Gbps(三星的炫技,没人批量采购)
NVIDIA 越激进地推进 Vera Rubin,涌入 AMD 市场的低速档 HBM4 就越多。因为低速档芯粒充裕,每 GB 的成本更低。AMD 以量大优惠的价格拿到了被 NVIDIA 规格筛选器”淘汰”的完好硅片。
三星也赢了。如果没有 AMD(可能还有 OpenAI)购买低速档芯粒,三星 HBM4 的有效良率(可售产品占比)只有可怜的 25-30%。有了 AMD 消化低速档,三星的有效良率跃升至 85-90%。这个三角关系中的每个客户都让其他客户的经济模型更优。
NVIDIA 延期的真正含义
当 TrendForce 报道 Vera Rubin 推迟约一个季度(至 2026 年 Q4 或 2027 年 Q1)时,他们将其归因于”HBM4 供应限制”。现在你明白这到底意味着什么了。
NVIDIA 要求每引脚速度超过 11 Gbps —— 有报道称最初目标是 13 Gbps。三星、SK 海力士和美光都不得不重新设计各自的 HBM4 产品。延期不是因为三星造不出 HBM4,而是因为三星造不出足够快的 HBM4 来满足黄仁勋。
这就是”高速档采购陷阱”。NVIDIA 的规格要求最快的 20-30% 良率。当这些良率在量产中达不到时,NVIDIA 要么:
- 等待 —— 接受延期,等三星改善工艺成熟度
- 放宽规格 —— NVIDIA 已经从 13 Gbps 降到了约 10 Gbps
- 增加供应商 —— GTC 上 48 小时内从 2 家 HBM4 供应商增加到 3 家
黄仁勋三个都选了。而每一个选择都让 AMD 的处境更有利。
NVIDIA 对速度的追求正在无意间补贴 AMD
让我们把这个补贴机制讲清楚,因为它反直觉得很美妙。
第一步:NVIDIA 要求 10 Gbps HBM4。 三星必须投产更多晶圆才能获得足够的高速档芯粒。如果 NVIDIA 需要 100 万颗高速档芯粒,三星必须生产约 400 万颗(按 ~25% 良率计算)。
第二步:另外 300 万颗芯粒不会消失。 它们是功能完好的 HBM4 —— 只是速度在 6-9 Gbps 而非 10+ Gbps。在 AMD 成为买家之前,这些基本是废品。三星要么降级处理,要么承担损失。
第三步:AMD 出现了,说”这些我全要”。 AMD 的 MI455X 只需要 6.5 Gbps。这 300 万颗”淘汰品”正是 AMD 想要的。由于供应充裕(低速档是高速档的 3 倍),AMD 有议价能力。三星乐于出售 —— 每颗卖出的芯粒都是纯利润回收。
第四步:NVIDIA 买得越多,AMD 拿到的就越多。 如果 NVIDIA 将 Vera Rubin 订单翻倍,三星就得将晶圆投产量翻倍。高速档芯粒翻倍给 NVIDIA —— 但低速档芯粒也翻倍给 AMD。NVIDIA 实际上在资助三星的晶圆生产,而 AMD 在捡溢出的便宜。
第五步:随着 NVIDIA 规模扩大,AMD 的单颗成本下降。 NVIDIA 承担了研发成本和工艺改进压力(三星必须不断提高良率来满足黄仁勋),低速档因此变得更可靠、更便宜。AMD 的 HBM4 变好,恰恰是因为 NVIDIA 持续要求更多。
这就是无意间的补贴。NVIDIA 为前沿买单。AMD 收割良率曲线中间段。三星从双方获利。消费者得到了两个有竞争力的 AI 芯片平台而非一家独大 —— 这一切源自一条良率曲线和两种截然不同的显存架构。
未解之谜
还有一个我们不知道的变量:OpenAI 用的是什么速度档?
据报道,三星与 OpenAI 签署了独家 HBM4 供应协议。如果 OpenAI 在制造自研 AI 芯片(而非购买 NVIDIA GPU),他们可能也像 AMD 一样选择低速档 HBM4。那将形成三方分配:
- NVIDIA: 最快的 20-30%(10+ Gbps)
- AMD + OpenAI: 剩余的 60-70%(6.4-9.6 Gbps)
如果属实,NVIDIA 激进的速度要求无意间为低速档 HBM4 创造了一个买方市场 —— 正是 AMD 和 OpenAI 所需要的市场。
值得关注的信号
这个故事有三个关键指标值得跟踪:
1. 三星 HBM4 良率报告。 任何速度档位分布数据的披露都会改变计算。如果三星的工艺成熟使 10 Gbps 良率提升到 40-50%,NVIDIA 的供应瓶颈缓解 —— 但 AMD 的成本优势也会缩小(可便宜获得的”淘汰”芯粒减少了)。
2. AMD MI455X 封装良率。 AMD 的 12 堆栈方案用芯粒级良率优势换取了封装复杂性。在一个 CoWoS 中介层上放 12 个 HBM4 堆栈比放 8 个更难。如果封装良率低,芯粒级的优势就会被吃掉。
3. OpenAI 的 HBM4 规格披露。 如果 OpenAI 也像 AMD 一样选择低速档,三星的分配计算就变得复杂 —— 三个客户争抢同样 60-70% 的产出,而只有 NVIDIA 能用最快的 25%。
AI 芯片战争不仅是谁设计了最好的 GPU,更是谁为自己的显存架构设计了对良率曲线的最佳生存策略。
市场将 AMD 的显存策略定价为弱点 —— 单 GPU 堆栈数更多、每引脚速度更低、依赖三星的低速档。但良率曲线说,这是一种优势。
AMD 押注了良率底部。这个赌注看起来越来越聪明。