SGNL Intelligence.
EN 中文
3 min read

Token 海啸:估算当今与年底的全球 AI 吞吐量

InferenceToken DemandHBMNVIDIAAMDBroadcomAgentic AISupply Chain

全球现在每天生成多少 Token?当 Vera Rubin、MI455X 和下一波硅片上线后又会是多少?没有人公布单一答案——但通过拼接 OpenAI、Google、Microsoft、NVIDIA 基准测试和出货量估算的公开数据点,我们可以勾勒出一个大致图景。数据表明,当前行业每天处理约 30-50 万亿个 Token,而产能将在年底前增长 10-20 倍。需求能否跟上,才是价值万亿美元的问题。


1. 我们已知的数据

大多数 AI 公司不公开 Token 吞吐量。但已有足够多的数据点被泄露或报道,可以作为估算的锚点:

  • **OpenAI:**2025 年 10 月 API 日均处理约 8.6 万亿个 Token。随着 Codex 用户自 2026 年 1 月以来增长三倍,加上 ChatGPT 持续增长,当前吞吐量可能更高。
  • **Google:**2025 年底月度 Token 处理量达到约 160 万亿——约合每天 5.3 万亿个 Token。涵盖 Gemini、搜索 AI 和内部工作负载。部分估算认为 Google 的处理量接近 Azure 的 10 倍。
  • **Microsoft Azure:**2025 年第三季度单月处理了创纪录的 50 万亿个 Token。包括 OpenAI API 流量和 Azure 自有 AI 服务。
  • **OpenRouter:**这家小型供应商聚合平台在 2025 年底突破了日均 1 万亿 Token——是推理需求长尾的有用代理指标。
按供应商估算的每日 Token 消费量(2026 年第一季度)
OpenAI API (Oct 2025)8.6T
Google (Gemini + internal) (est. late 2025)5.3T
Azure (non-OpenAI) (est. from Q3 peak)3T
Anthropic / Bedrock (est.)2T
Meta (internal) (est.)3T
OpenRouter + long tail (disclosed >1T/day)2T
On-premise / China (est.)8T
Estimated total~32T tokens/day

Anthropic、Meta(内部)、Amazon Bedrock 和本地部署均未公开数据。但将已知数据点与未公开玩家的合理估算相结合,2026 年第一季度全行业 Token 消费量可能为每天 30-50 万亿个


2. 理解这个规模

万亿和千万亿级别的 Token 难以直观感受。这里有一个具象化的方法:当前的 Token 消费量能从零开始构建多少个大型软件项目?

全球最复杂的代码库以数千万行代码计量。Windows 大约有 5000 万行。Chromium 浏览器——Chrome、Edge 和 Brave 的引擎——大约 3500 万行。Linux 内核——驱动从安卓手机到云服务器的一切——大约 2800 万行。

当 Claude Code 或 Cursor 等编码智能体编写软件时,它不仅仅输出代码。它会规划、阅读上下文、推理、编写、测试和调试。SWE-bench 数据显示,智能体修复一个改动 10-50 行的 bug 需要消耗 10 万到 200 万个 Token。从零编写新代码的开销较低但仍然可观。一个合理的中间估算是,完整的智能体「从零构建」工作流——包括规划、编写、测试和迭代——大约每行代码 1,000 个 Token

这意味着每个项目大约需要:

  • **Windows:**5000 万行 x 1,000 Token/行 = ~500 亿 Token
  • **Chromium:**3500 万行 x 1,000 Token/行 = ~350 亿 Token
  • **Linux 内核:**2800 万行 x 1,000 Token/行 = ~280 亿 Token

现在将其应用到实际数据。以当前约 40 万亿 Token/天的消费量,全球每天生成的 Token 足以从零构建约 800 个 Windows 级项目。相当于 1,100 个 Chromium 浏览器或 1,400 个 Linux 内核。每 24 小时。

每日 Token 产出的软件项目等价物
At ~1,000 tokens per line of code (including agent reasoning, testing, debugging)
Windows
50M lines = 50B tok
Chromium
35M lines = 35B tok
Linux kernel
28M lines = 28B tok
Today's consumption (~40T/day)800/day1,140/day1,430/day
End-2026 effective capacity (~8Q/day)160,000/day229,000/day286,000/day

到年底,如果硬件产能达到每天 8 千万亿有效 Token(我们在 35% 利用率下的预测),这将变成每天 160,000 个 Windows 级项目。人类软件工程的全部历史——每一个曾经编写过的程序——都可以在一天之内用 Token 重现许多遍。

当然,Token 不等于软件。规划、设计、测试和人类判断仍然不可或缺。但行业正在构建的原始生成能力是计算历史上前所未有的。


3. 当前硬件产能

全球的 AI 硬件实际能提供多少吞吐量?三个锚点:

  • **已装机 GPU 基数:**IEA 和 SemiAnalysis 估计,截至 2026 年初,全球约有 730 万个 H100 等效 GPU,对应约 30 GW 的 AI 数据中心电力容量。
  • **单 GPU 吞吐量:**GB300 NVL72 机架每秒输出 110 万个 Token(Microsoft MLPerf),约合每 GPU 15,200 输出 Token/秒。较老的 H100 根据模型和优化程度约 3,000-5,000 Token/秒。整体安装基数的混合平均值可能为 4,000-6,000 Token/秒/GPU。
  • **推理分配:**推理现在消耗约三分之二的 AI 算力(2023 年为三分之一)。在 730 万 GPU 等效基数中,约 450-500 万 GPU 分配给推理。

乘法计算:500 万推理 GPU x 平均 5,000 Token/秒 x 86,400 秒/天 = 约 2.2 千万亿 Token/天的理论产能。在 30-40% 的实际利用率下,有效产能约为每天 650-880 万亿 Token

理论 Token 产能:当前 vs 2026 年底
Today (theoretical)2.2Q tok/day
Today (effective @ 35%)0.77Q tok/day
End-2026 (theoretical)22Q tok/day
End-2026 (effective @ 35%)7.7Q tok/day
Q = quadrillion (10¹⁵) tokens

与实际消费的 30-50 万亿 Token/天相比,行业仅运行在理论产能的约 4-7%。这看起来像是大规模产能过剩——直到你考虑到需求端即将发生的变化。


4. 需求乘数

四股力量正在叠加,可能创造出计算历史上最陡峭的需求曲线。

**智能体工作负载是 Token 乘数。**Cursor 轨迹中的每一步升级——从 Tab 自动补全(~100 Token)到单一 Agent(~1 万)到并行 Agent(~10 万)到 Agent 集群(~100 万+)——都将每次会话的 Token 消耗提升一个数量级。Karpathy 将 2025 年 12 月确定为编码智能体变得实用的拐点。Sam Altman 确认 Codex 周活用户自一月以来增长了三倍。

智能体轨迹(Cursor 数据)
Tab AutocompleteNow~100 tokens/session
Single AgentNow~10K tokens/session
Parallel AgentsEarly~100K tokens/session
Agent SwarmsNext~1M+ tokens/session
Estimated tokens per developer session (log scale)

**模型被专门设计为生成更多 Token。**DeepSeek V3.2 在 1,800 个环境中使用 85,000 条智能体指令进行训练。V3.2-Speciale 等推理模型每次查询产生数千个思考 Token。模型层正在进化以消耗更多算力,而非更少。

**智能体也需要 CPU。**AMD CEO 苏姿丰确认了「来自智能体 AI 的意外 CPU 需求」。如果消费者每天仅使用智能体一小时,全球就需要将现有 CPU 装机量翻倍——这是 GPU Token 之外的并行需求冲击。

**杰文斯悖论。**Blackwell Ultra 相比 Hopper 实现了每 Token 成本降低 35 倍。历史表明,戏剧性的成本降低不仅满足现有需求——它们还会解锁全新的使用类别。当今天的智能体集群真正可靠运行时,每个开发者会话可能消耗比自动补全多 10,000 倍的 Token。

如果 1 亿知识工作者采用平均每天消耗 1 亿 Token 的 AI 智能体集群,那就是每天 10 千万亿 Token — 是当前所有已装机硬件理论产能的 5 倍。4-7% 的利用率差距会迅速缩小。


5. 年底前即将上线的硬件

三波硬件浪潮将在 2026 年下半年大幅扩展供给:

**NVIDIA Vera Rubin NVL72:**已在生产中,2026 年下半年向云合作伙伴发货。每个 Vera Rubin GPU 的推理性能是 GB200 的 5 倍,每 Token 成本比 Blackwell 低 10 倍。配备 288GB HBM4、20.5 TB/s 带宽和 NVLink 6(3.6 TB/s),单个机架可输出约 550 万 Token/秒——是当前 GB300 机架的 5 倍。摩根士丹利预计 2026 年 AI 服务器机柜出货量将从 28,000 翻倍至 60,000。

**AMD MI455X Helios:**目标 2026 年下半年,但量产可能延至 2027 年第二季度。每个 MI455X 配备 432GB HBM4(Vera Rubin 的 1.5 倍)、19.6 TB/s 带宽。Helios 机架包含 72 个加速器,提供 31TB HBM4 和 1.4 PB/s 聚合带宽。AMD 在 Meta 和 OpenAI 已有 12GW 的超大规模客户承诺产能。

**Broadcom 定制 ASIC 和网络:**Meta 的 MTIA 定制芯片进展「超出预期」(Broadcom CEO Hock Tan)。Google 的 TPU Ironwood 开始对外销售。Amazon Trainium 支撑 OpenAI 的 2GW 分配。这些定制设计针对特定推理工作负载优化,增加的产能不会出现在 GPU 出货统计中。

**软件是额外的免费乘数。**NVIDIA 的 GB200 NVL72 仅通过 TensorRT-LLM 软件升级就在 MoE 模型上获得了 2 倍性能提升。AMD 的 MoRI 库在 30 天内实现了 1.5 倍提升。每一代硬件都带有更多的软件优化空间。


6. 年底估算:当前的 10-20 倍

2026 年底推理产能的粗略预测:

  • **新增 NVIDIA 机架:**如果 60,000 个机柜出货(摩根士丹利),混合 GB300 和 Vera Rubin——假设 35,000 个 GB300(110 万 Token/秒)和 25,000 个 Vera Rubin(550 万 Token/秒)——新增 1,760 亿 Token/秒的产能,即每天 15.2 千万亿 Token。
  • **存量基础升级:**H100/H200/GB200 安装基数的软件优化可带来 1.5-2 倍增益,将现有产能从约 2.2Q 提升至约 3.3-4.4Q Token/天。
  • **AMD + 定制 ASIC:**MI355X 正在出货。MI455X Helios 机架在 2026 年底加入。Google TPU、Amazon Trainium 和 Meta MTIA 贡献的产能更难估算,但可能再增加 2-5Q Token/天。

2026 年底总理论产能:约每天 20-25 千万亿 Token——是当前约 2.2Q 的 10-12 倍增长。在实际利用率下,有效产能约为每天 6-10Q Token。

需求 vs 供给:正在缩小的差距
Actual consumption today40T
Effective capacity today770T
Effective capacity end-20267.7Q
100M workers × 100M tok/day10Q
Agent swarms scenario50Q
Q = quadrillion tokens/day · T = trillion

这听起来很庞大。但对比需求场景:1 亿知识工作者 x 1 亿 Token/天 = 10Q Token/天。加上运行智能体集群的开发者、企业自动化和 API 使用的长尾 — 即使 10-20 倍的硬件扩张也可能不会造成产能过剩。它可能只是为下一波需求提供了空间。


信号

知识图谱从这次分析中浮现出三个高置信度模式:

  • **当前利用率具有欺骗性地低。**行业目前仅运行在理论 GPU 产能的 4-7%。这看起来像产能过剩,但实际上是智能体工作负载将快速消耗的预留空间。「已服务 Token」与「可能 Token」之间的差距就是市场机会。
  • **供给扩张 10-20 倍,需求也是。**Vera Rubin 单 GPU 5 倍性能提升,加上 2 倍机架出货增长和软件增益,可将产能推至年底 20-25Q Token/天。但如果哪怕只有一小部分知识工作者采用智能体,需求将在 12-18 个月内追上或超过这一水平。
  • **三池约束持续存在。**即使 GPU 大规模扩张,瓶颈在算力(台积电晶圆竞争)、内存(SK 海力士、三星、美光的 HBM4 供应)和网络架构(Broadcom 730 亿美元积压订单)之间轮转。NVIDIA 在带宽和软件方面领先,AMD 在单 GPU 内存容量方面领先(432GB vs 288GB),Broadcom 控制定制 ASIC 和网络层。没有单一供应商能解决所有三个问题——基础设施超级周期惠及所有玩家。
分析由 GIKE(通用迭代知识引擎)提供支持。Token 吞吐量估算源自公开数据点(OpenAI 2025 年 10 月 API 数据、Microsoft 2025 年第三季度财报、Google 月度 Token 报告、NVIDIA MLPerf 基准测试),应视为数量级近似值,而非精确测量。硬件预测使用摩根士丹利机柜出货估算和 NVIDIA 公开的性能基准。声明交叉引用了 41 个信源。

获取信号,而非噪音

最新分析直达收件箱。无垃圾邮件,随时退订。