SGNL Intelligence.
EN 中文
1 min read

DeepSeek V3.2:边思考边行动的开源模型

DeepSeekV3.2Open WeightsAgentic AIReasoningMIT LicenseBenchmarks

DeepSeek V3.2 不仅仅是又一次模型发布——它是一次架构宣言。6850亿参数、MIT 许可证,它是首个将思维链推理与工具调用统一在单一推理流程中的开源模型。通过覆盖1800多个模拟环境和85000多条智能体指令的新型训练管道,V3.2 在基准测试中匹敌 GPT-5,而其高算力变体 Speciale 更是超越了它。以下是技术解析及其对竞争格局的意义。

1. 三大架构突破

V3.2 建立在三项创新之上,共同重新定义了开源模型的能力边界:

  • **DeepSeek 稀疏注意力(DSA):**一种高效的注意力机制,在保持质量的同时降低长上下文场景的计算复杂度。DSA 从实验阶段(V3.2-Exp)正式升级为生产状态,使长上下文推理成本显著降低。
  • **可扩展强化学习后训练:**一个通过扩展后训练计算量来将模型推向 GPT-5 同等水平的强化学习框架。Speciale 变体使用更多计算量,超越 GPT-5 并在推理任务上匹敌 Gemini-3.0-Pro。
  • **智能体任务合成:**覆盖1800多个环境和85000多条复杂智能体指令的新型训练数据管道。DeepSeek 不是在工具调用日志上微调,而是从零合成多步骤智能体任务——一种根本不同的构建智能体能力的方法。

2. 边思考边行动

核心特性:V3.2 是首个将推理直接集成到工具调用中的 DeepSeek 模型。之前的模型将思考和工具调用视为独立模式——你可以推理或者调用函数,但不能同时进行。

V3.2 将两者融合。模型可以进入「思考模式」(产生 reasoning_content)的同时进行工具调用。它在思考和非思考模式下都支持工具使用,并为搜索智能体场景引入了新的「developer」角色。

这很重要,因为现实世界的智能体不仅仅是执行——它们需要深思熟虑。编码智能体需要在调用文件系统之前推理架构。研究智能体需要在决定下一个查询之前评估搜索结果。V3.2 自然地模拟了这一过程。


3. 基准测试

DeepSeek 发布了跨数学、编码和知识领域的详尽基准测试结果:

DeepSeek V3.2 基准测试表现
AIME 202694.17%
HMMT Feb 202684.09%
GPQA Diamond82.4%
MMLU Pro85%
SWE Bench70%
LiveCodeBenchSpeciale90%
AIME25Speciale97%

在 Artificial Analysis 智能指数中,V3.2 得分66,在所有开源模型中排名第二——领先于 Grok 4(65)和 Claude Sonnet 4.5 Thinking(63)。在开源模型中,仅 Kimi K2 Thinking(67)排名更高。


4. V3.2 对比 V3.2-Speciale

DeepSeek 发布了两个具有根本不同权衡的变体:

V3.2 对比 V3.2-Speciale
V3.2Speciale
Parameters685B MoE685B MoE
LicenseMITMIT
Tool-Calling✅ Yes❌ No
Thinking Mode✅ Yes✅ Yes
Think + Tools✅ Unified
AIME2594.17%97%
LiveCodeBench90%
vs GPT-5MatchesSurpasses
Target UseAgent workflowsDeep reasoning
AvailabilityApp/Web/API/WeightsAPI only
  • **V3.2(通用型):**支持集成思考的工具调用。可在应用、网页、API 和开源权重中使用。为日常智能体工作流设计——编码、搜索、多步推理。
  • **V3.2-Speciale(纯推理型):**仅限 API,不支持工具调用。将推理推向极致——在 IMO 2025 和 IOI 2025 中获得金牌,AIME25 得分97%,LiveCodeBench 得分90%。为计算预算不受限的深度推理任务设计。

这种拆分是战略性的:V3.2 优化实用智能体场景,而 Speciale 是证明 DeepSeek 推理能力上限超越 GPT-5 的研究展示。


5. 竞争格局

V3.2 进入的是一个前沿快速拥挤的市场:

智能指数:开源模型
Kimi K2 ThinkingOpen67
DeepSeek V3.2Open66
Grok 465
Grok 4.1 Fast64
Claude Sonnet 4.563
Artificial Analysis Intelligence Index (higher = better)
  • **对比 GPT-5(OpenAI):**V3.2 在大多数基准测试中匹敌 GPT-5。Speciale 在数学和编码上击败它。但 GPT-5 仍然是闭源的,拥有巨大的生态系统优势。
  • **对比 Claude Sonnet 4.5(Anthropic):**V3.2 在 AA 智能指数上得分更高(66 vs 63)。DeepSeek V4 lite(285B)明确瞄准 Sonnet 4.6。Anthropic 的优势:经验证的企业信任和智能体编码(Claude Code)。
  • **对比 Gemini-3.0-Pro(Google):**Speciale 在推理上匹敌 Gemini。Google 的优势:原生多模态,集成到搜索/云平台。
  • **对比 Grok 4(xAI):**V3.2 在 AA 指数上微幅领先 Grok 4(66 vs 65)。xAI 的优势:实时 X/Twitter 数据集成。

关键差异化因素:V3.2 是该级别中唯一在 MIT 许可下完全开源的模型。任何人都可以部署、微调或基于它构建,无需 API 依赖。


6. DeepSeek 路线图

V3.2 不是终点——它是基础。DeepSeek 已经在推出 V4:

  • **DeepSeek V4:**1万亿参数多模态模型,针对华为和寒武纪芯片优化——明确减少对 NVIDIA 硬件的依赖。完全跳过了通常的 NVIDIA/AMD 优化步骤。
  • **DeepSeek V4 lite:**285B 参数模型,旨在直接与 Anthropic 的 Sonnet 4.6 竞争。

V4 的供应链策略与模型能力同样重要:DeepSeek 正在中国芯片上构建平行的 AI 生态系统,与 NVIDIA 主导的西方技术栈脱钩。V3.2 的 MIT 开源发布符合这一模式——构建任何人、任何地方都能运行的开放基础。

分析由 GIKE(通用迭代知识引擎)提供支持。数据来源于3个权威来源的9条已验证声明:DeepSeek 官方 arXiv 技术报告(2512.02556)、HuggingFace 模型卡和 Artificial Analysis 基准测试数据。所有基准数据均来自官方出版物。本分析客观呈现模型能力,不含背书。

获取信号,而非噪音

最新分析直达收件箱。无垃圾邮件,随时退订。