2026-03-28 2 min read

杰文斯悖论：为什么每一次 AI 优化都让硬件短缺更加严重

Jevons ParadoxInferenceTurboQuantEngramMemoryHBMDRAMSupply ChainOpenRouter

1865 年，经济学家威廉·斯坦利·杰文斯观察到，詹姆斯·瓦特更高效的蒸汽机并没有减少煤炭消耗，反而增加了。效率的提升使蒸汽动力在新的应用场景中变得经济可行 — 工厂、铁路、轮船 — 煤炭总需求因此爆发式增长。

一百六十一年后，同样的机制正在 AI 推理领域上演。而现在，我们有了数据来证明这一点。

证据：OpenRouter 的百万亿 Token 数据集

OpenRouter 于 2026 年 1 月发布了一项里程碑式的研究，分析了其平台上处理的超过 100 万亿个 token。类别分布揭示了一切：

OpenRouter Token 用途分类（2025-2026）

Early 2025

11%

Mid 2025

25%

Late 2025

38%

Mar 2026

52%

Coding/Programming

All Other Categories

Source: OpenRouter State of AI study (arXiv:2601.10088). 11% and 50%+ are sourced; mid-points interpolated. Category tags added mid-2025.

编程从 2025 年初约占 token 总量的 11% 增长到 2026 年 3 月的 50% 以上。Agent 驱动的工作流 token 现在超过了平台总输出的一半。（需要说明的是：OpenRouter 在 2025 年中期才添加类别标签，因此早期数据是回溯分类 — 但变化的方向和幅度是毫无疑问的。）

这并不是因为现有程序员使用了更多 token。而是因为一个全新的用例 — Agentic 编程 — 被更便宜、更快的推理创造出来了。 Claude Code、Cursor 和 Codex 等工具将编程从人类活动转变为人类指导的 AI 活动。每个 Agentic 编程会话消耗的 token 量比其取代的聊天对话高出数个数量级 — SWE-bench 数据显示，Agent 每修复一个 bug 就会消耗 10 万到 200 万个 token。

OpenRouter 数据：编程 token 在一年内从 11% 增长到 50% 以上。Agent 驱动的工作流现在超过平台总输出的一半。这个使用类别在 18 个月前几乎不存在。

Claude 在 OpenRouter 上超过 80% 的使用量都是编程工作负载。不是聊天，不是创意写作，而是代码。

机制：更便宜的 Token 创造新市场

这一模式在 AI 技术栈的每一次效率提升中都保持一致：

前沿模型定价 vs. 全球 Token 需求

GPT-4

Mar 2023

$60

per 1M output tokens

0.5T

est. daily global tokens

GPT-4 Turbo

Nov 2023

$30

per 1M output tokens

1.2T

est. daily global tokens

Claude 3 Opus

Mar 2024

$75

per 1M output tokens

est. daily global tokens

GPT-4o

May 2024

$15

per 1M output tokens

est. daily global tokens

DeepSeek V3

Jan 2025

$0.28

per 1M output tokens

18T

est. daily global tokens

DeepSeek V3.1

Mar 2026

$0.75

per 1M output tokens

45T

est. daily global tokens

Prices: frontier model output token pricing at launch (official API rates). Volume: industry estimates from disclosed data. As prices fall 200x, demand grows 90x.

前沿模型的输出 token 价格从 60 美元/百万个（GPT-4 发布，2023 年 3 月）降至 0.28 美元/百万个（DeepSeek V3，2025 年 1 月）。不到两年内降幅达 200 倍。同期，全球 token 消耗量估计从每天不到 1 万亿增长到 30-50 万亿。

推理需求的价格弹性是巨大的。每 10 倍的成本下降都会解锁一类新的应用：

60 美元/百万 token： 企业早期采用者进行实验性查询
15 美元/百万 token： 开发者在日常工作中使用 AI 助手
0.75 美元/百万 token： 自主编程 Agent 运行多步骤工作流
0.10 美元/百万 token： 每个 CI 流水线、每次代码审查、每个测试套件都接入 AI

我们目前处于 0.28-0.75 美元这个区间。正在为 0.10 美元价位构建的应用 — 持续 Agent 循环、实时代码监控、自动化安全审计 — 将消耗比之前所有应用加起来还要多几个数量级的 token。

Anthropic 刚刚把这一点变得更加明确。Claude Code 在 Max/Team/Enterprise 计划上现在默认使用 100 万 token 的上下文窗口 — 是之前 20 万限制的 5 倍 — 标准定价，无额外 token 附加费。单次 Agentic 编程会话现在可以消耗 100 万个 token。这不是理论上限，而是默认配置。乘以每天使用 Claude Code 的开发者数量，你就能开始理解为什么效率提升创造需求而非减少需求。

Cerebras 从硬件端展示了同样的动态：他们与 AWS 的合作使用 Trainium 处理预填充、CS-3 处理解码，实现了每秒 1,200 个 token 的速度。一个 10 步 Agent 链在这种速度下不到 3 秒即可完成。以 50 tok/s（标准 GPU 推理速度）计算，同样的链需要超过 30 秒。这个 24 倍的加速不仅仅是让现有工作负载更快 — 而是让多步骤 Agentic 工作流首次变得可行。新的需求，由效率创造而来。

内存悖论：TurboQuant 和 Engram 增加需求

这是杰文斯机制在半导体领域的具体体现，也是市场对 TurboQuant 抛售完全判断错误的地方。

TurboQuant 将 KV 缓存压缩 4-6 倍。天真的解读：GPU 需要更少的 HBM。实际结果：运营商用释放出的内存服务更多的并发用户，保持 HBM 总利用率不变，同时每块 GPU 带来更多收入。

SanDisk 首席财务官 David Visoso 明确指出了这一点：效率提升提高了超大规模资本支出的投资回报率，从而驱动更多投资。AMD 副总裁 Mario Morales 在 SEMICON China 上也表达了同样的观点 — AI 效率在杰文斯悖论下推动需求增长。

DeepSeek Engram 更进一步。它用静态哈希查找表替代了稠密模型层。这些表不需要 HBM 带宽 — 它们需要的是便宜、高容量的 DDR5 或 LPDDR5。所以 Engram 并没有减少内存需求，而是把需求从昂贵的 HBM 转移到更便宜的 DRAM，同时释放出的 HBM 被更大的模型或更多的并发所消耗。我们在 DeepSeek 的内存分离一文中详细分析了这一架构变革的影响。

效率提升下每 GPU 内存部署变化（示意图）

BaselinePre-TurboQuant, Pre-Engram

80 GB

HBM 80

TurboQuantKV cache 4x compressed

80 GB

HBM 80

Same HBM, 4x more concurrent users

EngramKnowledge offloaded to DRAM

180 GB

HBM 60

DDR5 120

Both + JevonsEquilibrium after demand fills freed capacity

280 GB

HBM 80

DDR5 200

HBM4

DDR5 / LPDDR5

Illustrative per-GPU memory deployment. TurboQuant frees KV cache headroom but operators fill it with concurrency. Engram shifts knowledge to DDR5. Net: more total GB deployed.

结果：每台服务器部署的总内存更多而非更少。HBM 晶圆消耗保持高位（杰文斯悖论）。DDR5 需求增加（新层级）。内存厂商在更多产品线上销售更多产品。AMD 的 MI455X 恰好不经意间设计成了这种三层工作负载的最佳架构：权重在 HBM4 上，压缩后的 KV 缓存，Engram 哈希表在 LPDDR5 上。

TrendForce 将 2026 年第一季度服务器 DRAM 价格预测从环比 +60-65% 上修至 +93-98%。NAND 从 +33-38% 上修至 +85-90%。这不是一个面临需求萎缩的行业的数据。

SK 海力士对 TurboQuant 的回应不是削减产能，而是提交赴美上市申请，目标筹资 100-140 亿美元，专门用于 HBM 产能扩张，并下达了 790 亿美元的 ASML EUV 设备订单。

毛利率陷阱

如果杰文斯悖论驱动了无限的需求增长，为什么 AI 推理公司还在亏钱？

据 SemiAnalysis 报道，Anthropic 2024 年的毛利率为 -94%。MiniMax 报告 -25%。这些公司的全部业务就是提供推理 token 服务。

当你把总体需求和单位经济分开看时，悖论就解开了。总需求正在爆发式增长。但在前沿水平上，每个需求单位的售价低于服务成本。从杰文斯悖论中受益的公司不是卖 token 的，而是卖镐头和铲子的：GPU、HBM、基板、氦气和电力。

这就是为什么 NVIDIA 的利润率在扩张而 Anthropic 深度亏损，为什么尽管每篇效率论文都在发表，内存厂商依然拥有定价权。效率提升降低了推理价格，创造了需求，需求需要更多硬件，硬件价格上涨，这让推理服务商的单位经济变得更差，即使他们的收入在增长。

自上而下，全是杰文斯悖论。

什么能打破循环？

三件事可能减缓杰文斯飞轮：

Token 需求饱和。 每个可以由 AI Agent 完成的有用任务都已经在被 AI 完成。考虑到光编程就在一年内从 11% 增长到 50%，而大多数行业甚至还没有开始采用 Agentic 工作流，饱和还在数年之后。
硬件供给追上需求。 理论上可能，但 2026 年在 7 个正交轴上存在同时发生的供应约束（氦气、钨、PCB 材料、HBM 晶圆、检测设备、水、能源）。我们另文详述了这一点。关于 HBM 良率经济学如何将 NVIDIA 和 AMD 连接到同一块三星晶圆上，请参阅我们的 HBM4 良率博弈分析。
监管限制算力部署。 Sanders/AOC 的数据中心暂停令、100 多个地方暂停令，以及日益增长的公众反对（本周有 200 名抗议者聚集在 Anthropic 总部）表明这是最可能的约束因素。如果你不能建数据中心，你就不能部署更多 GPU，无论需求多大。

杰文斯悖论在煤炭、石油和电力领域的历史表明，效率驱动的需求增长会持续到资源被完全替代（对硅来说不太可能）或监管介入（可能性越来越大）。AI 行业的问题不是效率是否会导致需求破坏 — 不会。问题是物理基础设施能否以足够快的速度建设，以满足效率创造的需求。

投资启示

本文为分析而非投资建议。我们持有文中提到的部分标的头寸。请自行研究并据此决策。

如果你相信杰文斯悖论适用于 AI 推理 — 而 OpenRouter 的数据强烈暗示如此 — 那么：

每一篇效率论文都利好硬件。 TurboQuant、Engram、MoE 架构、推测性解码、蒸馏 — 所有这些都降低了 token 的成本，增加了对 token 的需求，进而增加了对服务 token 的硅片的需求。
内存定价权持续。 TurboQuant 抛售是一个礼物。服务器 DRAM 价格环比上涨 93-98% 且在加速。SK 海力士正在融资 140 亿美元用于扩产。市场在买入，而非卖出。
真正的风险是供应约束，而非需求破坏。 半导体供应链已经在多重瓶颈叠加中挣扎。需求端是一个已解决的问题。问题是我们能否建设得足够快。
你可能不知道的一点： 美光自己的数据显示，DDR5 目前比 HBM 更赚钱。如果 Engram 类架构将内存组合从 HBM 转向 DDR5，对内存厂商来说这不是利润率压缩 — 而是在更高出货量上的利润率扩张。“HBM 需求破坏”的叙事不仅在需求判断上错了，在利润率判断上也错了。

我们在 Token 海啸分析中估算，全球每天服务 30-50 万亿个 token，产能预计将在年底前增长 10-20 倍。杰文斯机制解释了为什么这些产能会被填满，而不是闲置。

威廉·斯坦利·杰文斯在 1865 年就想明白了。AI 市场正在以每 GPU 小时 2.59 美元的代价重新学习同一课。

Confidence:

High

Medium

Low

Anthropic made 1M token context generally available for Claude Opus 4.6 and Sonnet 4.6 at standard pricing ($5/$25 per million tokens), with Claude Code on Max/Team/Enterprise defaulting to 1M context automatically.

Source: Anthropicsurfaced Mar 2026

3de2016d

TurboQuant on MLX achieves a 75% reduction in memory usage.

Source: @mweinbachsurfaced Mar 2026

93045e25

A 10-step agent chain powered by GPT-Codex-5.3-Spark on Cerebras completes in under 3 seconds at 1200 tokens per second.

Source: @zephyr_z9surfaced Mar 2026

63e80063

证据：OpenRouter 的百万亿 Token 数据集

机制：更便宜的 Token 创造新市场

内存悖论：TurboQuant 和 Engram 增加需求

毛利率陷阱

什么能打破循环？

投资启示

获取信号，而非噪音