Runway GWM-1 是 Runway 公司于 2025 年 12 月发布的 General World Model(通用世界模型) 系列产品,是他们首个通用世界模型家族,基于 Gen-4.5 视频生成模型构建而成。它不再只是生成静态视频片段,而是真正实时模拟现实世界,具备交互性、可控性和通用性,能够逐帧生成内容,并在用户操作下保持空间一致性、物理合理性和长期连贯性。
核心特点
- 实时逐帧生成:以 24fps、720p(1280x720)分辨率实时运行,可持续生成数分钟的连贯序列。
- 交互控制:支持通过动作(action)实时操控,例如相机姿态(camera pose)、机器人指令(robot commands)、音频输入等。
- 构建内部世界表示:模型通过学习视频数据理解物理规律、光照、几何、因果关系等,能模拟未来事件,而非简单拼接画面。
- 物理一致性:无论如何移动相机(前进、后退、转身),环境保持空间连贯;物理行为可通过提示词自定义(例如骑自行车必须贴地、重力影响等)。
- 反事实生成:支持探索“如果……会怎样”的不同可能性。
- 自回归架构:基于 Gen-4.5 的自回归扩散模型。
三个主要变体
GWM-1 目前分为三个专门的后训练模型,每个针对不同应用场景:
-
GWM Worlds(可探索环境)
- 从单张静态图像 + 提示词开始,生成无限可探索的 3D 一致环境。
- 支持自由移动、不同代理视角(人、无人机、机器人等)。
- 环境对用户动作实时反应,物理行为可自定义。
- 应用场景:游戏开发、教育、虚拟现实(VR)、代理训练、沉浸式体验等。
- 示例:漫步城市街道、无人机飞越雪山、机器人仓库导航。
-
GWM Avatars(对话角色/虚拟人物)
- 音频驱动的交互式视频生成模型。
- 支持逼真或风格化人物,包含自然面部表情、眼动、唇形同步、手势等。
- 可进行长时间对话而不会出现质量下降。
- 应用场景:在线教育、客服、培训模拟、娱乐、虚拟助手等。
- 即将集成到 Runway 的网页产品和 API 中。
-
GWM Robotics(机器人操控)
- 专为机器人领域设计,接受机器人动作指令预测视频。
- 支持多视角视频、长上下文序列。
- 可生成合成数据(新型物体、任务、变体),用于增强机器人训练数据集。
- 在模拟环境中测试策略,比真实硬件更快、更安全、可重复。
- 提供 GWM-1 Robotics SDK(Python),便于集成到机器人工作流中。
- 示例:测试 OpenVLA 等策略、探索不同轨迹的“如果……会怎样”结果。