Qwen3-Omni 端到端多模态模型,支持文本/图像/音频/视频与实时语音,Thinker–Talker + MoE,多码本降延迟;覆盖 119 种语言,附评测结论、部署建议与 vLLM/Transformers 实操。