Goku: 字节跳动推出全新视频生成基础模型,性能直逼商业巨头
5 min read

在视频生成AI领域,一个重量级新玩家正式登场。字节跳动与香港大学联合开发的视频生成基础模型Goku,凭借其创新的技术架构和卓越的性能表现,在AI视频生成领域掀起了新的浪潮。
技术突破:流式Transformer架构的创新应用
Goku的核心创新在于其独特的”矫正流式Transformer”架构。这一架构不仅能够处理图像生成任务,更在视频生成领域展现出色的表现。通过精心设计的数据处理流程和模型结构,Goku实现了图像和视频生成任务的无缝统一。
多样化的生成能力
Goku支持三种主要的生成任务:
- 文本到视频的生成
- 图像到视频的生成
- 文本到图像的生成
这种多功能性使得Goku能够满足不同场景下的创意需求,为内容创作者提供更多可能性。
性能评测:直追商业巨头
在权威的VBench基准测试中,Goku-T2V模型取得了84.85的优异成绩,位列榜单第二名。这一成绩超越了多个知名商业模型,展现出强大的技术实力:
- 在画面质量评分上达到85.60分
- 在采样评分方面获得81.87分
- 在人物动作生成方面取得79.48的高分
- 在场景理解能力上获得85.72分的出色表现
方法 | 总分 | 质量分 | 采样分 | 风格一致性 | 背景一致性 | 时间闪烁 | 动作平滑度 | 动态程度 | 主体质量 | 成像质量 | 物体类别 | 人物动作 | 物体关系 | 颜色 | 场景 | 提示词风格 | 整体一致性 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
AnimateDiff-V2 | 80.27 | 82.90 | 69.75 | 95.30 | 97.68 | 98.75 | 97.76 | 40.83 | 67.16 | 70.10 | 90.90 | 36.88 | 92.60 | 87.47 | 34.60 | 50.19 | 22.42 |
VideoCrafter-2.0 | 80.44 | 82.20 | 73.42 | 96.85 | 98.22 | 98.41 | 97.73 | 42.50 | 63.13 | 67.22 | 92.55 | 40.66 | 95.00 | 92.92 | 35.86 | 55.29 | 25.13 |
OpenSora V1.2 | 79.23 | 80.71 | 73.30 | 94.45 | 97.90 | 99.47 | 98.20 | 47.22 | 56.18 | 60.94 | 83.37 | 58.41 | 85.80 | 87.49 | 67.51 | 42.47 | 23.89 |
Show-1 | 78.93 | 80.42 | 72.98 | 95.53 | 98.02 | 99.12 | 98.24 | 44.44 | 57.35 | 58.66 | 93.07 | 45.47 | 95.60 | 86.35 | 53.50 | 47.03 | 23.06 |
Gen-3 | 82.32 | 84.11 | 75.17 | 97.10 | 96.62 | 98.61 | 99.23 | 60.14 | 63.34 | 66.82 | 87.81 | 53.64 | 96.40 | 80.90 | 65.09 | 54.57 | 24.31 |
Pika-1.0 | 80.69 | 82.92 | 71.77 | 96.94 | 97.36 | 99.74 | 99.50 | 47.50 | 62.04 | 61.87 | 88.72 | 43.08 | 86.20 | 90.57 | 61.03 | 49.83 | 22.26 |
CogVideoX-5B | 81.61 | 82.75 | 77.04 | 96.23 | 96.52 | 98.66 | 96.92 | 70.97 | 61.98 | 62.90 | 85.23 | 62.11 | 99.40 | 82.81 | 66.35 | 53.20 | 24.91 |
Kling | 81.85 | 83.39 | 75.68 | 98.33 | 97.60 | 99.30 | 99.40 | 46.94 | 61.21 | 65.62 | 87.24 | 68.05 | 93.40 | 89.90 | 73.03 | 50.86 | 19.62 |
Mira | 71.87 | 78.78 | 44.21 | 96.23 | 96.92 | 98.29 | 97.54 | 60.33 | 42.51 | 60.16 | 52.06 | 12.52 | 63.80 | 42.24 | 27.83 | 16.34 | 21.89 |
CausVid | 84.27 | 85.65 | 78.75 | 97.53 | 97.19 | 96.24 | 98.05 | 92.69 | 64.15 | 68.88 | 92.99 | 72.15 | 99.80 | 80.17 | 64.65 | 56.58 | 24.27 |
Luma | 83.61 | 83.47 | 84.17 | 97.33 | 97.43 | 98.64 | 99.35 | 44.26 | 65.51 | 66.55 | 94.95 | 82.63 | 96.40 | 92.33 | 83.67 | 58.98 | 24.66 |
HunyuanVideo | 83.24 | 85.09 | 75.82 | 97.37 | 97.76 | 99.44 | 98.99 | 70.83 | 60.36 | 67.56 | 86.10 | 68.55 | 94.40 | 91.60 | 68.68 | 53.88 | 19.80 |
Goku-T2V (****) | 84.85 | 85.60 | 81.87 | 95.55 | 96.67 | 97.71 | 98.50 | 76.11 | 67.22 | 71.29 | 94.40 | 79.48 | 97.60 | 83.81 | 85.72 | 57.08 | 23.08 |
应用前景广阔
Goku的出现为视频内容创作带来新的可能。其优异的性能表现和多样化的生成能力,使其在以下领域具有广阔的应用前景:
- 短视频内容创作
- 电影特效制作
- 教育培训视频生成
- 营销内容制作
- 游戏动画生成
技术细节深度解析
Goku的成功离不开其在数据处理和模型设计上的创新:
- 精细的数据筛选:团队投入大量精力进行高质量的图像和视频数据整理
- 创新的流式处理:通过矫正流提升视频和图像token之间的交互质量
- 优化的性能指标:在各项基准测试中展现出全面的性能优势
行业影响与未来展望
Goku的发布标志着AI视频生成技术进入新阶段。作为开源项目,它不仅为研究人员提供了宝贵的学习资源,也为整个行业树立了新的技术标准。
随着技术的不断演进,我们可以期待:
- 更高质量的视频生成效果
- 更快的生成速度
- 更广泛的应用场景
- 更多的商业化可能
结语
Goku的出现,不仅展示了字节跳动在AI领域的技术实力,也为整个视频生成领域注入了新的活力。随着技术的进一步完善和应用场景的不断拓展,Goku有望在未来的AI视频生成领域发挥更大的作用。
对于想要了解更多技术细节的读者,可以访问Goku的GitHub项目页面获取更多信息。
参考文献
更多文章

微软 OmniParser V2.0 重磅发布:AI 视觉解析迎来重大升级,自动化与可访问性迈向新高度

LLM-Reasoner:让你的大语言模型像DeepSeek R1一样深度思考

一文读懂 DeepSeek R1:强化学习如何重塑大语言模型推理能力?

Let's Encrypt 将在2025年推出6天有效期证书和IP地址证书支持

字节跳动开源基于 Golang 的大模型应用开发框架 Eino

主流开源AI Agent框架对比与选型(langgraph, AutoGen, MetaGPT, ChatDev, Swarm, uagents)

Microsoft TRELLIS 教程 - 开源文生3D、图生3D模型部署指南

VLC 自动字幕和翻译(基于本地离线开源AI模型)|CES 2025

STAR: 基于文本到视频模型的实际场景视频超分辨率技术