正在重塑AI硬件格局的四大博弈
如果制造世界上最大芯片的公司…其实并没有在卖那颗芯片呢?
本周四个独立的公告,串联起来讲述了同一个故事:AI硬件技术栈正在裂变为专业化的层级,赢家不会是拥有最大芯片的公司——而是控制正确层级的公司。
让我们逐一拆解。
1. AWS + Cerebras:买的是速度,不是护城河
Cerebras刚拿下了第一个云端合作。AWS将在Amazon Bedrock上提供Cerebras推理服务。听起来很厉害。但看看架构:
AWS并没有把整个推理任务交给Cerebras。而是将流水线拆成两段:
- 预填充(Prefill)——并行处理整个提示词——运行在AWS自研的Trainium3芯片上。这是计算密集型阶段。AWS自己处理。
- 解码(Decode)——逐个生成token——运行在Cerebras CS-3上。这是内存带宽受限的阶段,Cerebras巨大的片上SRAM在此大放异彩。
这叫做解耦推理——在不同阶段使用不同的硬件。工程上很巧妙。但它揭示了Cerebras处境中一个重要的问题。
令人不安的事实是:Cerebras制造了世界上最大的半导体——将整片晶圆变成一颗处理器。这是工程杰作。但它的核心特性——非结构化稀疏性(跳过神经网络中零值计算的能力)——目前似乎没有任何主流AI工作负载在使用。真正重要的模型——Llama、GPT、Gemini——并没有以匹配Cerebras硬件优势的方式利用稀疏性。
摩根士丹利直言不讳地指出:当机架级NVIDIA GB300和Vera Rubin上市后,Cerebras不具备20-25%的性能优势。而Cerebras目前享有的推理利润率?全行业都会很高,并非Cerebras独有。
那AWS为什么要做这笔交易?抢占时间窗口。 此时此刻,Cerebras CS-3提供最快的token生成速度。AWS正在租用这个速度差距——趁它还在。当Vera Rubin以5倍于Blackwell的推理吞吐量发货时——差距可能就关闭了。
看多的理由:解耦推理成为标准架构,Cerebras在解码阶段的优势上比NVIDIA迭代得更快。看空的理由:NVIDIA的软件生态(TRT-LLM、Dynamo)仅通过优化就能弥合差距——他们已经在60天内实现了2倍的性能提升。
2. 光互连联盟:谁在圈内,谁被排除,以及为什么重要
六家公司——Broadcom、AMD、Meta、Microsoft、NVIDIA和OpenAI——刚刚推出了光计算互连多源协议(OCI MSA)。这是一个开放规范,定义了AI集群中芯片和机架之间光信号如何传输数据。
第一反应:这不是UALink做的事情吗?
不是。它们是完全不同的层级。
可以类比互联网:
- OCI MSA 是光纤电缆——物理介质。铜线 vs 光纤 vs 共封装光学。光子如何移动。
- UALink 是协议——就像GPU间通信的TCP/IP。芯片在节点内如何对话。直接竞争NVIDIA专有的NVLink。
- UEC(超以太网联盟)是网络栈——AI优化的以太网,用于机架间大规模互联。
OCI MSA位于UALink之下。你可以在OCI MSA光学上运行UALink。它们是互补的,不是竞争的。
但缺席者讲述了一个故事:
Google缺席OCI MSA。 为什么?Google端到端地设计自己的TPU互连架构。他们不需要行业联盟来标准化光链路——他们控制着从芯片到机架的整个技术栈。
AWS也缺席了。 同样的逻辑。Trainium使用自研互连(NeuronLink)。AWS在垂直整合,而非水平协作。
Ayar Labs——领先的共封装光学初创公司——被排除在外,尽管它是多个联盟成员的供应商。这可能暗示联盟更倾向于可插拔光学而非CPO。可插拔更灵活、更易现场维护。CPO更高效但更难维护。联盟可能在押注可插拔光学在这一代的规模化扩展中会胜出。
3. 当AI设计自己的芯片
这是本周最低调但最具深远影响的公告。
在Synopsys Converge——半导体设计行业的重要会议上——OpenAI的Richard Ho确认AI代理正在工程团队下班后自主执行芯片设计任务。
工程师回家了。代理继续工作。早上,设计取得了进展。
这不是假设性的未来技术。它与过去18个月一直在积累的更广泛模式相连:
- DoubleAI WarpSpeed研究表明,AI编写的GPU内核现在在规模上超越了人类编写的内核。从业者报告说,这个过程从”有帮助”变成了”一次成功”——你描述内核应该做什么,GPT-5.3-Codex在第一次尝试中就写出生产级代码。
- Claude和Codex正被用于跨多供应商硬件平台编写GPU内核——NVIDIA、AMD、Intel——将原本需要数周的专业工程工作缩短到几分钟。
半导体设计周期历来以年为单位。一个新的GPU架构从概念到硅片需要3-4年。如果AI代理能处理重复性工作——RTL编码、验证、布局优化、时序收敛——这些周期将大幅压缩。
传统EDA护城河——由Synopsys和Cadence主导的超过150亿美元的行业——面临一个有趣的悖论。它们的工具是AI代理运行的平台。但如果代理足够强大,它们可能会将工具本身商品化。价值从软件迁移到驱动软件的智能。
4. Oracle的5530亿美元之问
让我们谈谈当前科技界最极端的背离。
RPO——剩余履约义务——是一个会计术语。意思是:已签署但Oracle尚未交付的服务合同。就像餐厅的预订簿。RPO说明未来一年预订了多少桌。收入说明实际端了多少餐。
Oracle的RPO从1380亿美元飙升至5530亿美元,大约一年时间。4倍爆发。预订簿完全爆满。
与此同时,股价自2025年9月以来下跌了50%。股票回到了2025年初的水平,当时积压只有1300亿美元。
为什么会出现这种背离?三个原因:
-
转化质疑。 RPO是承诺,不是现金。市场要看实际收入增长。建设数据中心来履行这些积压需要大量资本支出——执行风险很高。
-
客户集中。 OpenAI正在Oracle基础设施上扩展Vera Rubin GPU集群。这很好——直到你意识到5530亿美元积压中很大一部分可能来自一个客户。
-
合同结构。 并非所有RPO都相同。多年期云合同通常有使用承诺,可以重新协商。市场在定价某些合同可能有退出条款——或者增长会比标题数字暗示的更慢。
看多的理由:如果Oracle以云级别的利润率转化哪怕30%的积压,股价在当前水平简直便宜到离谱。看空的理由:RPO是海市蜃楼。合同缓慢增长,基础设施交易利润率微薄,客户集中(OpenAI)创造了脆弱性。
贯穿四个故事的主线
这些故事表面上看似不同。芯片合作。光学标准。AI设计硬件。数据库公司的积压。
但它们共享一个论点:AI技术栈正在分裂为专业化的层级,赢家控制特定的瓶颈点,而非整个技术栈。
- Cerebras 控制token生成速度——目前如此。但当Vera Rubin发货时,瓶颈点会转移。
- OCI MSA 是关于谁定义光学层的争夺。制定标准的公司控制互操作性——并锁定竞争对手。
- AI芯片设计代理 将设计时间线从数年压缩到数月,可能打破EDA双寡头格局,使芯片创新民主化。
- Oracle的积压 是一个赌注:控制数据中心产能——而不仅仅是云软件——才是AI供应受限世界中真正的瓶颈点。
AI技术栈曾经很简单:买GPU,跑模型。现在它是一个由专业硅片、光学标准、设计自动化和基础设施合同组成的层级蛋糕。理解哪个层级最重要,就是新的alpha。
引用来源: [1fbf1fa0], [fce437d2], [738231cd], [3014cf7b], [7a35d4d9], [d858c507], [9e12bc13], [c2b29aac], [9950ef3b], [b5c817dd], [ee660b93]