Goku: 字节跳动推出全新视频生成基础模型，性能直逼商业巨头

AI 文生视频图生视频深度学习

Feb 15, 2025 5 min read

Cover image for Goku: 字节跳动推出全新视频生成基础模型，性能直逼商业巨头

在视频生成AI领域，一个重量级新玩家正式登场。字节跳动与香港大学联合开发的视频生成基础模型Goku，凭借其创新的技术架构和卓越的性能表现，在AI视频生成领域掀起了新的浪潮。

技术突破：流式Transformer架构的创新应用

Goku的核心创新在于其独特的”矫正流式Transformer”架构。这一架构不仅能够处理图像生成任务，更在视频生成领域展现出色的表现。通过精心设计的数据处理流程和模型结构，Goku实现了图像和视频生成任务的无缝统一。

多样化的生成能力

Goku支持三种主要的生成任务：

文本到视频的生成
图像到视频的生成
文本到图像的生成

这种多功能性使得Goku能够满足不同场景下的创意需求，为内容创作者提供更多可能性。

性能评测：直追商业巨头

在权威的VBench基准测试中，Goku-T2V模型取得了84.85的优异成绩，位列榜单第二名。这一成绩超越了多个知名商业模型，展现出强大的技术实力：

在画面质量评分上达到85.60分
在采样评分方面获得81.87分
在人物动作生成方面取得79.48的高分
在场景理解能力上获得85.72分的出色表现

方法	总分	质量分	采样分	风格一致性	背景一致性	时间闪烁	动作平滑度	动态程度	主体质量	成像质量	物体类别	人物动作	物体关系	颜色	场景	提示词风格	整体一致性
AnimateDiff-V2	80.27	82.90	69.75	95.30	97.68	98.75	97.76	40.83	67.16	70.10	90.90	36.88	92.60	87.47	34.60	50.19	22.42
VideoCrafter-2.0	80.44	82.20	73.42	96.85	98.22	98.41	97.73	42.50	63.13	67.22	92.55	40.66	95.00	92.92	35.86	55.29	25.13
OpenSora V1.2	79.23	80.71	73.30	94.45	97.90	99.47	98.20	47.22	56.18	60.94	83.37	58.41	85.80	87.49	67.51	42.47	23.89
Show-1	78.93	80.42	72.98	95.53	98.02	99.12	98.24	44.44	57.35	58.66	93.07	45.47	95.60	86.35	53.50	47.03	23.06
Gen-3	82.32	84.11	75.17	97.10	96.62	98.61	99.23	60.14	63.34	66.82	87.81	53.64	96.40	80.90	65.09	54.57	24.31
Pika-1.0	80.69	82.92	71.77	96.94	97.36	99.74	99.50	47.50	62.04	61.87	88.72	43.08	86.20	90.57	61.03	49.83	22.26
CogVideoX-5B	81.61	82.75	77.04	96.23	96.52	98.66	96.92	70.97	61.98	62.90	85.23	62.11	99.40	82.81	66.35	53.20	24.91
Kling	81.85	83.39	75.68	98.33	97.60	99.30	99.40	46.94	61.21	65.62	87.24	68.05	93.40	89.90	73.03	50.86	19.62
Mira	71.87	78.78	44.21	96.23	96.92	98.29	97.54	60.33	42.51	60.16	52.06	12.52	63.80	42.24	27.83	16.34	21.89
CausVid	84.27	85.65	78.75	97.53	97.19	96.24	98.05	92.69	64.15	68.88	92.99	72.15	99.80	80.17	64.65	56.58	24.27
Luma	83.61	83.47	84.17	97.33	97.43	98.64	99.35	44.26	65.51	66.55	94.95	82.63	96.40	92.33	83.67	58.98	24.66
HunyuanVideo	83.24	85.09	75.82	97.37	97.76	99.44	98.99	70.83	60.36	67.56	86.10	68.55	94.40	91.60	68.68	53.88	19.80
Goku-T2V (****)	84.85	85.60	81.87	95.55	96.67	97.71	98.50	76.11	67.22	71.29	94.40	79.48	97.60	83.81	85.72	57.08	23.08