Home

Meta重磅发布Llama 3.3:70B参数媲美405B,支持128K超长上下文

· 3 min read
img of Meta重磅发布Llama 3.3:70B参数媲美405B,支持128K超长上下文

Meta于12月6日重磅发布新一代开源大语言模型Llama 3.3,在模型性能、多语言能力和上下文长度等方面实现重大突破。

核心亮点

相比前代产品,Llama 3.3在以下方面取得显著进展:

  • 超强性能:仅用70B参数即可达到405B级别的模型性能
  • 超长上下文:支持128K tokens的上下文窗口,大幅提升长文本处理能力
  • 多语言支持:原生支持8种语言,包括英语、德语、法语等主流语言
  • 高效架构:采用优化的Transformer架构,配备GQA注意力机制

技术规格

Llama 3.3的主要技术参数:

  • 预训练数据:15T+ tokens的公开在线数据
  • 知识截止:2023年12月
  • 输入输出:支持多语言文本输入,可输出文本和代码
  • 训练方式:结合SFT和RLHF进行指令调优
  • 部署要求:支持4-bit和8-bit量化部署

性能评测

在多个权威基准测试中,Llama 3.3展现出卓越性能:

  • MMLU(CoT):86.0分提升至88.6分
  • HumanEval:80.5%提升至88.4%
  • MATH(CoT):68.0分提升至77.0分
  • MGSM:86.9%提升至91.1%

开源策略

Meta采取负责任的开源策略:

  • 提供完整模型权重和代码
  • 开放社区许可协议
  • 支持商业和研究用途
  • 内置多重安全保障机制

使用限制

使用Llama 3.3需注意以下事项:

  • 需同意Meta隐私政策
  • 遵守社区使用准则
  • 商用需额外授权
  • 禁止用于非法用途

Meta表示,Llama 3.3的发布将加速AI民主化进程,为全球开发者和研究者提供更强大的开源选择。

获取模型

模型已在Hugging Face平台开放下载:@meta-llama/Llama-3.3-70B-Instruct

注意:下载和使用模型需要同意Meta的使用条款和隐私政策。

相关文章

There are no related posts yet. 😢