Tech Explorer Logo

搜索内容

Qwen3参数概览:从0.6B到235B,混合推理与多模态的极致平衡(附本地部署参数推荐)

6 min read
Cover image for Qwen3参数概览:从0.6B到235B,混合推理与多模态的极致平衡(附本地部署参数推荐)

阿里云通义千问团队最新发布的Qwen3系列模型,以其多样化的模型规模和创新的混合推理模式引发业界关注。涵盖从0.6B到235B的八款模型,Qwen3不仅在语言、数学和编码任务上表现卓越,还通过MoE(混合专家)和Dense(密集)架构实现了性能与效率的极致平衡。以下通过表格形式,详细梳理Qwen3系列的核心参数和特性,揭示其技术内核。

Qwen3模型参数一览

模型名称总参数量激活参数量架构类型上下文长度支持语言许可证主要特性
Qwen3-235B-A22B2350亿220亿MoE128K token119种Qwen License旗舰模型,编码、数学、通用能力媲美DeepSeek-R1、Grok-3,高效推理
Qwen3-30B-A3B300亿30亿MoE128K token119种Qwen License小型MoE,性能超Qwen2.5-32B,推理成本低,适合本地部署
Qwen3-32B320亿320亿Dense128K token119种Apache 2.0高性能密集模型,适合复杂任务,推理能力匹敌Qwen2.5-72B
Qwen3-14B140亿140亿Dense128K token119种Apache 2.0中等规模,平衡性能与资源占用,适合企业级应用
Qwen3-8B80亿80亿Dense128K token119种Apache 2.0轻量高效,适用于边缘设备,性能媲美Qwen2.5-14B
Qwen3-4B40亿40亿Dense128K token119种Apache 2.0小型模型,推理速度快,性能接近Qwen2.5-7B
Qwen3-1.7B17亿17亿Dense128K token119种Apache 2.0超轻量,适合移动设备,性能匹敌Qwen2.5-3B
Qwen3-0.6B6亿6亿Dense128K token119种Apache 2.0最小规模,极低资源需求,适用于低功耗场景

Qwen3 本地部署推荐参数设置

模式TemperatureTopPTopKMinPPresence PenaltyOllama 设置备注
思考模式0.6 控制随机性,低值更稳定0.95 累积概率采样,高值增多样性20 选前K个词,平衡多样性0 无概率下限,最大灵活性0 ~ 2 减少重复,高值慎用num_ctx=40960 num_predict=32768 keep_alive=-1禁用贪婪解码,避免性能下降和重复。
非思考模式0.7 稍高随机性,增创造性0.8 较低值,输出更集中20 选前K个词,平衡多样性0 无概率下限,最大灵活性0 ~ 2 减少重复,高值慎用num_ctx=40960 num_predict=32768 keep_alive=-1高 presence_penalty 可能导致语言混合

参数与特性解析

模型规模与架构类型

Qwen3系列提供两种架构:

  • MoE(混合专家):如Qwen3-235B-A22B和Qwen3-30B-A3B,通过激活部分参数(22B或3B)实现高效推理,总参数量虽大,但计算成本接近小规模密集模型。MoE架构在编码、数学等任务中表现出色,推理速度提升显著。
  • Dense(密集模型):从0.6B到32B的全参数模型,适合需要稳定高性能的场景。小模型(如Qwen3-0.6B)针对边缘设备优化,大模型(如Qwen3-32B)则在复杂推理任务中表现优异。

上下文长度

所有Qwen3模型支持128K token的上下文长度,可处理超长文档或多轮对话,生成能力高达8K token。这一特性使其在长文本生成、文档理解等任务中具备明显优势。

多语言支持

Qwen3支持119种语言和方言,覆盖中文、英文、欧洲语言及低资源语言,适用于全球化的多语言应用场景。

混合思维模式

Qwen3首创思考模式与非思考模式切换:

  • 思考模式:通过链式推理(CoT)逐一推导,适合复杂数学、编码和逻辑推理任务。
  • 非思考模式:快速响应简单查询,优化延迟和计算成本。

这一设计通过四阶段训练(长CoT冷启动、基于推理的RL、思维模式融合、通用RL)实现,显著提升任务适配性。

许可证与开源策略

  • 密集模型(0.6B-32B)采用Apache 2.0许可证,适合商业应用。
  • MoE模型(235B-A22B、30B-A3B)使用Qwen License,更适合研究场景。

性能与效率

基准测试表现

  • Qwen3-235B-A22B:在MMLU-Pro、LiveCodeBench等测试中,与DeepSeek-R1、Grok-3等顶级模型竞争,编码和数学能力尤为突出。
  • Qwen3-30B-A3B:激活仅3B参数,却超越Qwen2.5-32B,推理效率提升10倍,适合本地部署和实时应用。
  • 小型模型:如Qwen3-4B,性能媲美Qwen2.5-72B,适合资源受限场景。

相关链接

Share

更多文章