标签: 大语言模型

共 2 篇文章

Qwen3-Next 系列发布：Gated DeltaNet × Gated Attention 混合架构，80B 总参仅激活约 3B，实现长上下文、高并发与低延迟；Instruct 与 Thinking 分工明确，覆盖从生产对话到深度推理的全场景。

阿里云通义千问Qwen3系列大语言模型全面介绍，从0.6B到235B的多规模模型，结合MoE与Dense架构，实现性能与效率的完美平衡，支持119种语言，具备卓越的编码和数学能力