DeepSeek V3.1:混合推理、强劲编程与 Agent 能力,支持Claude Code,性价比再升级
7 min read

DeepSeek V3.1于2025年8月21悄然发布,作为其V3模型的迭代版本,它在编程能力、推理效率和智能体(Agent)能力上都展现了显著的提升,被认为是迈向智能体时代的重要一步。该模型以其卓越的性能和极具竞争力的成本优势,在开源人工智能领域引起了广泛关注。
核心亮点
- 混合推理架构:V3.1最引人注目的创新之一是其混合推理架构,集成了一个模型同时支持“思考模式”(Think)与“非思考模式”(Non-Think)。用户可以通过“深度思考”按钮自由切换。这种设计旨在平衡深度推理和快速响应的需求,在处理复杂问题时启用深度思考,而在简单任务上则能快速响应,避免了不必要的计算开销。
- 卓越的编程能力:DeepSeek V3.1在多项编程基准测试中表现出色。在Aider编程测试中,其通过率达到了71.6%,超越了像Claude Opus这样的顶尖闭源模型。更值得注意的是,达到这一性能水平的成本极低,有报道称其测试总成本仅为1美元左右,相比同等性能的Claude Opus便宜了68倍。
- 强大的智能体(Agent)能力:通过后训练优化,V3.1在工具使用和智能体任务(如代码修复和搜索)方面获得了显著增强。在代码修复评测SWE和命令行终端环境下的复杂任务(Terminal-Bench)测试中,其表现相较于之前的DeepSeek系列模型有明显提高。
- 高性价比与开源承诺:DeepSeek V3.1拥有6850亿的庞大参数规模,并支持128k的长上下文窗口。尽管参数量巨大,但它采用了专家混合(MoE)架构,每个token仅激活370亿参数,从而在保持高性能的同时,维持了较低的推理成本。其基础模型在Hugging Face上开源,进一步推动了开源AI社区的发展。
- 兼容 Anthropic API 格式:新增对 Anthropic API 请求/响应格式的支持,使团队可将 DeepSeek V3.1 能力轻松接入 Claude Code 框架与相关生态,降低迁移与集成成本集成指南。
性能表现与评测
在多项基准测试中,DeepSeek V3.1展示了其强大的实力:
- 编程与代码:在Aider多语言编程基准测试中得分高达71.6%,优于Claude 4 Opus。一些实际测试表明,它能够很好地处理复杂的编程任务,例如使用Three.js制作交互式3D粒子星系,尽管在UI审美方面还有提升空间。
- 推理能力:虽然在一个基础的推理测试中,模型未能正确理解“死人”与“活人”的区别,但在一些逻辑和单词计数任务上表现尚可。官方表示,经过思维链压缩训练后,V3.1-Think在输出token数减少20%-50%的情况下,各项任务的平均表现能与之前的旗舰推理模型R1-0528持平,同时响应速度更快。
- 多步推理与搜索:官方称,V3.1在需要多步推理的复杂搜索测试(browsecomp)与多学科专家级难题测试(HLE)上,性能已大幅领先R1-0528。
与其它模型的比较
相较于业界领先的模型如GPT-4o和Claude Opus,DeepSeek V3.1展现了强大的竞争力,尤其是在编程和性价比方面。虽然有评测指出,在某些通用任务和高级数学问题上,GPT-4o可能仍然更具优势,但V3.1在代码和推理任务上已能与之一较高下。值得一提的是,尽管其编程能力突出,但在写作等创造性任务上,一些用户认为其表现仍有待提高。
如何使用
用户可以通过多种渠道访问和使用DeepSeek V3.1:
- 官方网站与App:官方网页端和App已默认升级至V3.1,用户可直接体验并使用“深度思考”功能。
- API调用:开发者可以通过API接入,其中
deepseek-chat
对应非思考模式,deepseek-reasoner
对应思考模式,上下文长度均已扩展至128K。现已兼容 Anthropic API 格式,便于在 Claude Code 框架中即插即用,减少适配成本。 - 开源版本:基础模型已在Hugging Face上发布,供研究人员和开发者下载使用。
总而言之,DeepSeek V3.1是一款在编程和智能体能力上取得重大突破的开源模型。其创新的混合推理架构和极高的性价比,为企业和开发者提供了强有力的AI应用新选择,也为开源社区注入了新的活力。
更多文章

Qwen-Image-Edit 图像编辑介绍与 ComfyUI 使用指南

沉浸式翻译插件重大安全漏洞:网页快照功能导致用户敏感信息大规模泄露

GLM-4.5技术报告与应用体验:国产智能体大模型新标杆

Win11Debloat 深度指南:一键精简 Windows 11,告别臃肿,提升系统性能

阿里Qwen-MT翻译模型重磅升级:92种语言、秒级响应,挑战GPT-4翻译霸主地位

Kimi K2如何凭借三大创新炼成万亿开源模型?

Docker运行macOS教程:Linux系统完整配置与部署指南

Qwen-TTS重磅发布:阿里云方言语音合成新巅峰,API极速体验!

Google 发布 Gemini CLI:终极开源 AI 终端工具,挑战 Claude Code