2026-03-06 3 min read

Token 海啸：估算当今与年底的全球 AI 吞吐量

InferenceToken DemandHBMNVIDIAAMDBroadcomAgentic AISupply Chain

全球现在每天生成多少 Token？当 Vera Rubin、MI455X 和下一波硅片上线后又会是多少？没有人公布单一答案——但通过拼接 OpenAI、Google、Microsoft、NVIDIA 基准测试和出货量估算的公开数据点，我们可以勾勒出一个大致图景。数据表明，当前行业每天处理约 30-50 万亿个 Token，而产能将在年底前增长 10-20 倍。需求能否跟上，才是价值万亿美元的问题。

1. 我们已知的数据

大多数 AI 公司不公开 Token 吞吐量。但已有足够多的数据点被泄露或报道，可以作为估算的锚点：

**OpenAI：**2025 年 10 月 API 日均处理约 8.6 万亿个 Token。随着 Codex 用户自 2026 年 1 月以来增长三倍，加上 ChatGPT 持续增长，当前吞吐量可能更高。
**Google：**2025 年底月度 Token 处理量达到约 160 万亿——约合每天 5.3 万亿个 Token。涵盖 Gemini、搜索 AI 和内部工作负载。部分估算认为 Google 的处理量接近 Azure 的 10 倍。
**Microsoft Azure：**2025 年第三季度单月处理了创纪录的 50 万亿个 Token。包括 OpenAI API 流量和 Azure 自有 AI 服务。
**OpenRouter：**这家小型供应商聚合平台在 2025 年底突破了日均 1 万亿 Token——是推理需求长尾的有用代理指标。

按供应商估算的每日 Token 消费量（2026 年第一季度）

OpenAI API (Oct 2025)8.6T

Google (Gemini + internal) (est. late 2025)5.3T

Azure (non-OpenAI) (est. from Q3 peak)3T

Anthropic / Bedrock (est.)2T

Meta (internal) (est.)3T

OpenRouter + long tail (disclosed >1T/day)2T

On-premise / China (est.)8T

Estimated total~32T tokens/day

Anthropic、Meta（内部）、Amazon Bedrock 和本地部署均未公开数据。但将已知数据点与未公开玩家的合理估算相结合，2026 年第一季度全行业 Token 消费量可能为每天 30-50 万亿个。

2. 理解这个规模

万亿和千万亿级别的 Token 难以直观感受。这里有一个具象化的方法：当前的 Token 消费量能从零开始构建多少个大型软件项目？

全球最复杂的代码库以数千万行代码计量。Windows 大约有 5000 万行。Chromium 浏览器——Chrome、Edge 和 Brave 的引擎——大约 3500 万行。Linux 内核——驱动从安卓手机到云服务器的一切——大约 2800 万行。

当 Claude Code 或 Cursor 等编码智能体编写软件时，它不仅仅输出代码。它会规划、阅读上下文、推理、编写、测试和调试。SWE-bench 数据显示，智能体修复一个改动 10-50 行的 bug 需要消耗 10 万到 200 万个 Token。从零编写新代码的开销较低但仍然可观。一个合理的中间估算是，完整的智能体「从零构建」工作流——包括规划、编写、测试和迭代——大约每行代码 1,000 个 Token。

这意味着每个项目大约需要：

**Windows：**5000 万行 x 1,000 Token/行 = ~500 亿 Token
**Chromium：**3500 万行 x 1,000 Token/行 = ~350 亿 Token
**Linux 内核：**2800 万行 x 1,000 Token/行 = ~280 亿 Token

现在将其应用到实际数据。以当前约 40 万亿 Token/天的消费量，全球每天生成的 Token 足以从零构建约 800 个 Windows 级项目。相当于 1,100 个 Chromium 浏览器或 1,400 个 Linux 内核。每 24 小时。

每日 Token 产出的软件项目等价物

At ~1,000 tokens per line of code (including agent reasoning, testing, debugging)

	Windows 50M lines = 50B tok	Chromium 35M lines = 35B tok	Linux kernel 28M lines = 28B tok
Today's consumption (~40T/day)	800/day	1,140/day	1,430/day
End-2026 effective capacity (~8Q/day)	160,000/day	229,000/day	286,000/day

到年底，如果硬件产能达到每天 8 千万亿有效 Token（我们在 35% 利用率下的预测），这将变成每天 160,000 个 Windows 级项目。人类软件工程的全部历史——每一个曾经编写过的程序——都可以在一天之内用 Token 重现许多遍。

当然，Token 不等于软件。规划、设计、测试和人类判断仍然不可或缺。但行业正在构建的原始生成能力是计算历史上前所未有的。

3. 当前硬件产能

全球的 AI 硬件实际能提供多少吞吐量？三个锚点：

**已装机 GPU 基数：**IEA 和 SemiAnalysis 估计，截至 2026 年初，全球约有 730 万个 H100 等效 GPU，对应约 30 GW 的 AI 数据中心电力容量。
**单 GPU 吞吐量：**GB300 NVL72 机架每秒输出 110 万个 Token（Microsoft MLPerf），约合每 GPU 15,200 输出 Token/秒。较老的 H100 根据模型和优化程度约 3,000-5,000 Token/秒。整体安装基数的混合平均值可能为 4,000-6,000 Token/秒/GPU。
**推理分配：**推理现在消耗约三分之二的 AI 算力（2023 年为三分之一）。在 730 万 GPU 等效基数中，约 450-500 万 GPU 分配给推理。

乘法计算：500 万推理 GPU x 平均 5,000 Token/秒 x 86,400 秒/天 = 约 2.2 千万亿 Token/天的理论产能。在 30-40% 的实际利用率下，有效产能约为每天 650-880 万亿 Token。

理论 Token 产能：当前 vs 2026 年底

Today (theoretical)2.2Q tok/day

Today (effective @ 35%)0.77Q tok/day

End-2026 (theoretical)22Q tok/day

End-2026 (effective @ 35%)7.7Q tok/day

Q = quadrillion (10¹⁵) tokens

与实际消费的 30-50 万亿 Token/天相比，行业仅运行在理论产能的约 4-7%。这看起来像是大规模产能过剩——直到你考虑到需求端即将发生的变化。

4. 需求乘数

四股力量正在叠加，可能创造出计算历史上最陡峭的需求曲线。

**智能体工作负载是 Token 乘数。**Cursor 轨迹中的每一步升级——从 Tab 自动补全（~100 Token）到单一 Agent（~1 万）到并行 Agent（~10 万）到 Agent 集群（~100 万+）——都将每次会话的 Token 消耗提升一个数量级。Karpathy 将 2025 年 12 月确定为编码智能体变得实用的拐点。Sam Altman 确认 Codex 周活用户自一月以来增长了三倍。

智能体轨迹（Cursor 数据）

Tab AutocompleteNow~100 tokens/session

Single AgentNow~10K tokens/session

Parallel AgentsEarly~100K tokens/session

Agent SwarmsNext~1M+ tokens/session

Estimated tokens per developer session (log scale)

**模型被专门设计为生成更多 Token。**DeepSeek V3.2 在 1,800 个环境中使用 85,000 条智能体指令进行训练。V3.2-Speciale 等推理模型每次查询产生数千个思考 Token。模型层正在进化以消耗更多算力，而非更少。

**智能体也需要 CPU。**AMD CEO 苏姿丰确认了「来自智能体 AI 的意外 CPU 需求」。如果消费者每天仅使用智能体一小时，全球就需要将现有 CPU 装机量翻倍——这是 GPU Token 之外的并行需求冲击。

**杰文斯悖论。**Blackwell Ultra 相比 Hopper 实现了每 Token 成本降低 35 倍。历史表明，戏剧性的成本降低不仅满足现有需求——它们还会解锁全新的使用类别。当今天的智能体集群真正可靠运行时，每个开发者会话可能消耗比自动补全多 10,000 倍的 Token。

如果 1 亿知识工作者采用平均每天消耗 1 亿 Token 的 AI 智能体集群，那就是每天 10 千万亿 Token — 是当前所有已装机硬件理论产能的 5 倍。4-7% 的利用率差距会迅速缩小。

5. 年底前即将上线的硬件

三波硬件浪潮将在 2026 年下半年大幅扩展供给：

**NVIDIA Vera Rubin NVL72：**已在生产中，2026 年下半年向云合作伙伴发货。每个 Vera Rubin GPU 的推理性能是 GB200 的 5 倍，每 Token 成本比 Blackwell 低 10 倍。配备 288GB HBM4、20.5 TB/s 带宽和 NVLink 6（3.6 TB/s），单个机架可输出约 550 万 Token/秒——是当前 GB300 机架的 5 倍。摩根士丹利预计 2026 年 AI 服务器机柜出货量将从 28,000 翻倍至 60,000。

**AMD MI455X Helios：**目标 2026 年下半年，但量产可能延至 2027 年第二季度。每个 MI455X 配备 432GB HBM4（Vera Rubin 的 1.5 倍）、19.6 TB/s 带宽。Helios 机架包含 72 个加速器，提供 31TB HBM4 和 1.4 PB/s 聚合带宽。AMD 在 Meta 和 OpenAI 已有 12GW 的超大规模客户承诺产能。

**Broadcom 定制 ASIC 和网络：**Meta 的 MTIA 定制芯片进展「超出预期」（Broadcom CEO Hock Tan）。Google 的 TPU Ironwood 开始对外销售。Amazon Trainium 支撑 OpenAI 的 2GW 分配。这些定制设计针对特定推理工作负载优化，增加的产能不会出现在 GPU 出货统计中。

**软件是额外的免费乘数。**NVIDIA 的 GB200 NVL72 仅通过 TensorRT-LLM 软件升级就在 MoE 模型上获得了 2 倍性能提升。AMD 的 MoRI 库在 30 天内实现了 1.5 倍提升。每一代硬件都带有更多的软件优化空间。

6. 年底估算：当前的 10-20 倍

2026 年底推理产能的粗略预测：

**新增 NVIDIA 机架：**如果 60,000 个机柜出货（摩根士丹利），混合 GB300 和 Vera Rubin——假设 35,000 个 GB300（110 万 Token/秒）和 25,000 个 Vera Rubin（550 万 Token/秒）——新增 1,760 亿 Token/秒的产能，即每天 15.2 千万亿 Token。
**存量基础升级：**H100/H200/GB200 安装基数的软件优化可带来 1.5-2 倍增益，将现有产能从约 2.2Q 提升至约 3.3-4.4Q Token/天。
**AMD + 定制 ASIC：**MI355X 正在出货。MI455X Helios 机架在 2026 年底加入。Google TPU、Amazon Trainium 和 Meta MTIA 贡献的产能更难估算，但可能再增加 2-5Q Token/天。

2026 年底总理论产能：约每天 20-25 千万亿 Token——是当前约 2.2Q 的 10-12 倍增长。在实际利用率下，有效产能约为每天 6-10Q Token。

需求 vs 供给：正在缩小的差距

Actual consumption today40T

Effective capacity today770T

Effective capacity end-20267.7Q

100M workers × 100M tok/day10Q

Agent swarms scenario50Q

Q = quadrillion tokens/day · T = trillion

这听起来很庞大。但对比需求场景：1 亿知识工作者 x 1 亿 Token/天 = 10Q Token/天。加上运行智能体集群的开发者、企业自动化和 API 使用的长尾 — 即使 10-20 倍的硬件扩张也可能不会造成产能过剩。它可能只是为下一波需求提供了空间。

信号

知识图谱从这次分析中浮现出三个高置信度模式：

**当前利用率具有欺骗性地低。**行业目前仅运行在理论 GPU 产能的 4-7%。这看起来像产能过剩，但实际上是智能体工作负载将快速消耗的预留空间。「已服务 Token」与「可能 Token」之间的差距就是市场机会。
**供给扩张 10-20 倍，需求也是。**Vera Rubin 单 GPU 5 倍性能提升，加上 2 倍机架出货增长和软件增益，可将产能推至年底 20-25Q Token/天。但如果哪怕只有一小部分知识工作者采用智能体，需求将在 12-18 个月内追上或超过这一水平。
**三池约束持续存在。**即使 GPU 大规模扩张，瓶颈在算力（台积电晶圆竞争）、内存（SK 海力士、三星、美光的 HBM4 供应）和网络架构（Broadcom 730 亿美元积压订单）之间轮转。NVIDIA 在带宽和软件方面领先，AMD 在单 GPU 内存容量方面领先（432GB vs 288GB），Broadcom 控制定制 ASIC 和网络层。没有单一供应商能解决所有三个问题——基础设施超级周期惠及所有玩家。

分析由 GIKE（通用迭代知识引擎）提供支持。Token 吞吐量估算源自公开数据点（OpenAI 2025 年 10 月 API 数据、Microsoft 2025 年第三季度财报、Google 月度 Token 报告、NVIDIA MLPerf 基准测试），应视为数量级近似值，而非精确测量。硬件预测使用摩根士丹利机柜出货估算和 NVIDIA 公开的性能基准。声明交叉引用了 41 个信源。