DeepSeek V3.1：混合推理、强劲编程与 Agent 能力，支持Claude Code，性价比再升级

DeepSeek V3.1 DeepSeek 混合推理编程 Agent Anthropic API Claude Code

Aug 22, 2025 7 min read

Cover image for DeepSeek V3.1：混合推理、强劲编程与 Agent 能力，支持Claude Code，性价比再升级

DeepSeek V3.1于2025年8月21悄然发布，作为其V3模型的迭代版本，它在编程能力、推理效率和智能体（Agent）能力上都展现了显著的提升，被认为是迈向智能体时代的重要一步。该模型以其卓越的性能和极具竞争力的成本优势，在开源人工智能领域引起了广泛关注。

核心亮点

混合推理架构：V3.1最引人注目的创新之一是其混合推理架构，集成了一个模型同时支持“思考模式”（Think）与“非思考模式”（Non-Think）。用户可以通过“深度思考”按钮自由切换。这种设计旨在平衡深度推理和快速响应的需求，在处理复杂问题时启用深度思考，而在简单任务上则能快速响应，避免了不必要的计算开销。
卓越的编程能力：DeepSeek V3.1在多项编程基准测试中表现出色。在Aider编程测试中，其通过率达到了71.6%，超越了像Claude Opus这样的顶尖闭源模型。更值得注意的是，达到这一性能水平的成本极低，有报道称其测试总成本仅为1美元左右，相比同等性能的Claude Opus便宜了68倍。
强大的智能体（Agent）能力：通过后训练优化，V3.1在工具使用和智能体任务（如代码修复和搜索）方面获得了显著增强。在代码修复评测SWE和命令行终端环境下的复杂任务（Terminal-Bench）测试中，其表现相较于之前的DeepSeek系列模型有明显提高。
高性价比与开源承诺：DeepSeek V3.1拥有6850亿的庞大参数规模，并支持128k的长上下文窗口。尽管参数量巨大，但它采用了专家混合（MoE）架构，每个token仅激活370亿参数，从而在保持高性能的同时，维持了较低的推理成本。其基础模型在Hugging Face上开源，进一步推动了开源AI社区的发展。
兼容 Anthropic API 格式：新增对 Anthropic API 请求/响应格式的支持，使团队可将 DeepSeek V3.1 能力轻松接入 Claude Code 框架与相关生态，降低迁移与集成成本集成指南。

性能表现与评测

在多项基准测试中，DeepSeek V3.1展示了其强大的实力：

编程与代码：在Aider多语言编程基准测试中得分高达71.6%，优于Claude 4 Opus。一些实际测试表明，它能够很好地处理复杂的编程任务，例如使用Three.js制作交互式3D粒子星系，尽管在UI审美方面还有提升空间。
推理能力：虽然在一个基础的推理测试中，模型未能正确理解“死人”与“活人”的区别，但在一些逻辑和单词计数任务上表现尚可。官方表示，经过思维链压缩训练后，V3.1-Think在输出token数减少20%-50%的情况下，各项任务的平均表现能与之前的旗舰推理模型R1-0528持平，同时响应速度更快。
多步推理与搜索：官方称，V3.1在需要多步推理的复杂搜索测试（browsecomp）与多学科专家级难题测试（HLE）上，性能已大幅领先R1-0528。

与其它模型的比较

相较于业界领先的模型如GPT-4o和Claude Opus，DeepSeek V3.1展现了强大的竞争力，尤其是在编程和性价比方面。虽然有评测指出，在某些通用任务和高级数学问题上，GPT-4o可能仍然更具优势，但V3.1在代码和推理任务上已能与之一较高下。值得一提的是，尽管其编程能力突出，但在写作等创造性任务上，一些用户认为其表现仍有待提高。

如何使用

用户可以通过多种渠道访问和使用DeepSeek V3.1：

官方网站与App：官方网页端和App已默认升级至V3.1，用户可直接体验并使用“深度思考”功能。
API调用：开发者可以通过API接入，其中deepseek-chat对应非思考模式，deepseek-reasoner对应思考模式，上下文长度均已扩展至128K。现已兼容 Anthropic API 格式，便于在 Claude Code 框架中即插即用，减少适配成本。
开源版本：基础模型已在Hugging Face上发布，供研究人员和开发者下载使用。

总而言之，DeepSeek V3.1是一款在编程和智能体能力上取得重大突破的开源模型。其创新的混合推理架构和极高的性价比，为企业和开发者提供了强有力的AI应用新选择，也为开源社区注入了新的活力。