Meta重磅发布Llama 3.3:70B参数媲美405B,支持128K超长上下文
· 3 min read
Meta于12月6日重磅发布新一代开源大语言模型Llama 3.3,在模型性能、多语言能力和上下文长度等方面实现重大突破。
核心亮点
相比前代产品,Llama 3.3在以下方面取得显著进展:
- 超强性能:仅用70B参数即可达到405B级别的模型性能
- 超长上下文:支持128K tokens的上下文窗口,大幅提升长文本处理能力
- 多语言支持:原生支持8种语言,包括英语、德语、法语等主流语言
- 高效架构:采用优化的Transformer架构,配备GQA注意力机制
技术规格
Llama 3.3的主要技术参数:
- 预训练数据:15T+ tokens的公开在线数据
- 知识截止:2023年12月
- 输入输出:支持多语言文本输入,可输出文本和代码
- 训练方式:结合SFT和RLHF进行指令调优
- 部署要求:支持4-bit和8-bit量化部署
性能评测
在多个权威基准测试中,Llama 3.3展现出卓越性能:
- MMLU(CoT):86.0分提升至88.6分
- HumanEval:80.5%提升至88.4%
- MATH(CoT):68.0分提升至77.0分
- MGSM:86.9%提升至91.1%
开源策略
Meta采取负责任的开源策略:
- 提供完整模型权重和代码
- 开放社区许可协议
- 支持商业和研究用途
- 内置多重安全保障机制
使用限制
使用Llama 3.3需注意以下事项:
- 需同意Meta隐私政策
- 遵守社区使用准则
- 商用需额外授权
- 禁止用于非法用途
Meta表示,Llama 3.3的发布将加速AI民主化进程,为全球开发者和研究者提供更强大的开源选择。
获取模型
模型已在Hugging Face平台开放下载:@meta-llama/Llama-3.3-70B-Instruct
注意:下载和使用模型需要同意Meta的使用条款和隐私政策。