Goku: 字节跳动推出全新视频生成基础模型,性能直逼商业巨头
5 min read

在视频生成AI领域,一个重量级新玩家正式登场。字节跳动与香港大学联合开发的视频生成基础模型Goku,凭借其创新的技术架构和卓越的性能表现,在AI视频生成领域掀起了新的浪潮。
技术突破:流式Transformer架构的创新应用
Goku的核心创新在于其独特的”矫正流式Transformer”架构。这一架构不仅能够处理图像生成任务,更在视频生成领域展现出色的表现。通过精心设计的数据处理流程和模型结构,Goku实现了图像和视频生成任务的无缝统一。
多样化的生成能力
Goku支持三种主要的生成任务:
- 文本到视频的生成
- 图像到视频的生成
- 文本到图像的生成
这种多功能性使得Goku能够满足不同场景下的创意需求,为内容创作者提供更多可能性。
性能评测:直追商业巨头
在权威的VBench基准测试中,Goku-T2V模型取得了84.85的优异成绩,位列榜单第二名。这一成绩超越了多个知名商业模型,展现出强大的技术实力:
- 在画面质量评分上达到85.60分
- 在采样评分方面获得81.87分
- 在人物动作生成方面取得79.48的高分
- 在场景理解能力上获得85.72分的出色表现
方法 | 总分 | 质量分 | 采样分 | 风格一致性 | 背景一致性 | 时间闪烁 | 动作平滑度 | 动态程度 | 主体质量 | 成像质量 | 物体类别 | 人物动作 | 物体关系 | 颜色 | 场景 | 提示词风格 | 整体一致性 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
AnimateDiff-V2 | 80.27 | 82.90 | 69.75 | 95.30 | 97.68 | 98.75 | 97.76 | 40.83 | 67.16 | 70.10 | 90.90 | 36.88 | 92.60 | 87.47 | 34.60 | 50.19 | 22.42 |
VideoCrafter-2.0 | 80.44 | 82.20 | 73.42 | 96.85 | 98.22 | 98.41 | 97.73 | 42.50 | 63.13 | 67.22 | 92.55 | 40.66 | 95.00 | 92.92 | 35.86 | 55.29 | 25.13 |
OpenSora V1.2 | 79.23 | 80.71 | 73.30 | 94.45 | 97.90 | 99.47 | 98.20 | 47.22 | 56.18 | 60.94 | 83.37 | 58.41 | 85.80 | 87.49 | 67.51 | 42.47 | 23.89 |
Show-1 | 78.93 | 80.42 | 72.98 | 95.53 | 98.02 | 99.12 | 98.24 | 44.44 | 57.35 | 58.66 | 93.07 | 45.47 | 95.60 | 86.35 | 53.50 | 47.03 | 23.06 |
Gen-3 | 82.32 | 84.11 | 75.17 | 97.10 | 96.62 | 98.61 | 99.23 | 60.14 | 63.34 | 66.82 | 87.81 | 53.64 | 96.40 | 80.90 | 65.09 | 54.57 | 24.31 |
Pika-1.0 | 80.69 | 82.92 | 71.77 | 96.94 | 97.36 | 99.74 | 99.50 | 47.50 | 62.04 | 61.87 | 88.72 | 43.08 | 86.20 | 90.57 | 61.03 | 49.83 | 22.26 |
CogVideoX-5B | 81.61 | 82.75 | 77.04 | 96.23 | 96.52 | 98.66 | 96.92 | 70.97 | 61.98 | 62.90 | 85.23 | 62.11 | 99.40 | 82.81 | 66.35 | 53.20 | 24.91 |
Kling | 81.85 | 83.39 | 75.68 | 98.33 | 97.60 | 99.30 | 99.40 | 46.94 | 61.21 | 65.62 | 87.24 | 68.05 | 93.40 | 89.90 | 73.03 | 50.86 | 19.62 |
Mira | 71.87 | 78.78 | 44.21 | 96.23 | 96.92 | 98.29 | 97.54 | 60.33 | 42.51 | 60.16 | 52.06 | 12.52 | 63.80 | 42.24 | 27.83 | 16.34 | 21.89 |
CausVid | 84.27 | 85.65 | 78.75 | 97.53 | 97.19 | 96.24 | 98.05 | 92.69 | 64.15 | 68.88 | 92.99 | 72.15 | 99.80 | 80.17 | 64.65 | 56.58 | 24.27 |
Luma | 83.61 | 83.47 | 84.17 | 97.33 | 97.43 | 98.64 | 99.35 | 44.26 | 65.51 | 66.55 | 94.95 | 82.63 | 96.40 | 92.33 | 83.67 | 58.98 | 24.66 |
HunyuanVideo | 83.24 | 85.09 | 75.82 | 97.37 | 97.76 | 99.44 | 98.99 | 70.83 | 60.36 | 67.56 | 86.10 | 68.55 | 94.40 | 91.60 | 68.68 | 53.88 | 19.80 |
Goku-T2V (****) | 84.85 | 85.60 | 81.87 | 95.55 | 96.67 | 97.71 | 98.50 | 76.11 | 67.22 | 71.29 | 94.40 | 79.48 | 97.60 | 83.81 | 85.72 | 57.08 | 23.08 |
应用前景广阔
Goku的出现为视频内容创作带来新的可能。其优异的性能表现和多样化的生成能力,使其在以下领域具有广阔的应用前景:
- 短视频内容创作
- 电影特效制作
- 教育培训视频生成
- 营销内容制作
- 游戏动画生成
技术细节深度解析
Goku的成功离不开其在数据处理和模型设计上的创新:
- 精细的数据筛选:团队投入大量精力进行高质量的图像和视频数据整理
- 创新的流式处理:通过矫正流提升视频和图像token之间的交互质量
- 优化的性能指标:在各项基准测试中展现出全面的性能优势
行业影响与未来展望
Goku的发布标志着AI视频生成技术进入新阶段。作为开源项目,它不仅为研究人员提供了宝贵的学习资源,也为整个行业树立了新的技术标准。
随着技术的不断演进,我们可以期待:
- 更高质量的视频生成效果
- 更快的生成速度
- 更广泛的应用场景
- 更多的商业化可能
结语
Goku的出现,不仅展示了字节跳动在AI领域的技术实力,也为整个视频生成领域注入了新的活力。随着技术的进一步完善和应用场景的不断拓展,Goku有望在未来的AI视频生成领域发挥更大的作用。
对于想要了解更多技术细节的读者,可以访问Goku的GitHub项目页面获取更多信息。
参考文献
更多文章

Qwen2.5-Omni 全能旗舰 VS 国产小钢炮 MiniCPM-V:参数、硬件、资源、优势全解析,谁才是真香之选?

DeepSeek-V3-0324 更新:全面提升的推理与创作能力

AI巨头正面交锋:Grok 3图片编辑功能横空出世,谷歌Gemini措手不及?

Mistral Small 3.1:轻量级大模型的王者归来,能否撼动Gemma 3的霸主地位?

SmolDocling:256M参数的全能文档OCR处理利神器,每页仅需0.35秒,GTX1060即可运行

Manus vs OpenManus:一天9个微信群爆满,AI Agent掀起商业与开源双重博弈

阿里QwQ-32B,32B小参数媲美DeepSeek R1 671B,重塑开源AI新格局?

重大安全警报:VS Code 最流行主题插件 Material Theme 被曝含恶意代码

微软 OmniParser V2.0 重磅发布:AI 视觉解析迎来重大升级,自动化与可访问性迈向新高度