Qwen3-Next 系列发布:Gated DeltaNet × Gated Attention 混合架构,80B 总参仅激活约 3B,实现长上下文、高并发与低延迟;Instruct 与 Thinking 分工明确,覆盖从生产对话到深度推理的全场景。
阿里云通义千问Qwen3系列大语言模型全面介绍,从0.6B到235B的多规模模型,结合MoE与Dense架构,实现性能与效率的完美平衡,支持119种语言,具备卓越的编码和数学能力