分享文章
WBench – 美团推出的交互式视频世界模型多轮评测基准
WBench是什么
WBench 是美团 LongCat 团队推出的,首个面向交互式视频世界模型的系统性多轮评测基准,包含 289 个测试案例和 1058 个交互轮次,覆盖自然、城市、幻想等 6 类场景与 7 种艺术风格。基准通过统一交互接口对 20 个前沿模型进行CT 扫描,精准定位模型从被动观看到主动交互的能力边界,揭示当前世界模型在多轮交互、导航控制和视角切换等维度的核心短板。

WBench的主要功能
- 多维度世界定义:支持 6 类场景(自然、城市、室内、工作区、幻想、运动)、7 种艺术风格(写实、动漫、卡通、油画、水墨、扁平、素描)及 3 种视角包括第一人称/第三人称/具身第一人称)。
- 四类核心交互:提供导航、主体动作、事件编辑、视角切换四种交互方式。
- 统一交互接口:通过 Action Router 将文本指令、6DoF 坐标和键盘动作统一映射为标准化输入,适配不同模型的原生接口。
- 五维评测套件:从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五个维度进行量化评分,包含 NavScore、Gated Spatial Consistency 等硬核指标。
- 多轮长程评估:支持连续多轮交互测试,测量模型在长时间交互后的性能衰减情况。
WBench的技术原理
四大核心要素架构:WBench 的设计遵循世界定义 + 指令集 + 统一交互接口 + 评测套件的框架。世界定义负责构建多样化的测试环境;指令集提供标准化的动作描述;统一交互接口通过 Action Router 将异构输入转换为模型可理解的信号;评测套件则从五个维度输出量化指标,形成完整的评估闭环。
场景与交互解耦设计:采用舞台与剧本分离的设计理念:场景和交互独立配置,可自由组合。这种解耦使评测可精准定位问题根源。
多轮自回归反馈机制:评测流程采用自回归方式:每一轮的输出帧会作为下一轮的输入,模拟真实交互场景。通过这种方式,WBench 能检测模型在长程交互中的错误累积效应,如导航能力在多轮后平均下降 33 点。
如何使用WBench
克隆仓库:访问 GitHub 仓库并克隆 WBench 代码到本地,安装 Python 依赖环境。
下载数据集:从 HuggingFace 拉取包含 289 个测试案例和 1058 个交互轮次的评测数据集。
接入模型:通过 Action Router 将待测模型接入 WBench 的统一交互接口,适配文本或动作输入协议。
定义场景:在配置文件中选择场景类型、艺术风格、主体对象及观察视角。
选择交互:从导航、主体动作、事件编辑、视角切换四类交互中组合测试动作。
设定维度:启用视频质量、设定遵循度、交互遵循度、一致性、物理真实性五维评测指标。
单轮测试:运行初始帧生成与单轮交互,获取模型基础能力得分。
多轮测试:启动自回归模式,将上一轮输出作为下一轮输入,测量长程性能衰减。
批量对比:配置多个模型并行运行相同测试用例,生成横向对比数据。
查看报告:评测结束后自动生成雷达图与得分表,直观展示各维度强弱分布。
WBench的核心优势
- 首个多轮交互评测基准:区别于传统单轮视频生成评测,WBench 首次系统性地评估模型在连续交互中的表现,填补行业空白。
- 覆盖全面且解耦:289 个案例覆盖 6 大场景、7 种风格、5 类主体,且场景与交互独立配置,可精准定位模型短板。
- 统一接口兼容异构模型:通过 Action Router 适配文本驱动模型(如 Kling 3.0)和专用世界模型(如 HY-World 1.5),实现公平对比。
- 揭示关键行业洞察:本驱动模型擅长理解,专用世界模型擅长导航;视频质量与导航能力基本无关;多轮交互是核心难点。
WBench的项目地址
项目官网:https://meituan-longcat.github.io/WBench/
GitHub仓库:https://github.com/meituan-longcat/WBench
HuggingFace模型库:https://huggingface.co/datasets/meituan-longcat/WBench
技术论文:https://huggingface.co/papers/2605.25874
WBench的同类竞品对比
| 维度 | WBench | WorldScore |
|---|---|---|
| 定位 | 多轮交互式视频世界模型评测 | 世界生成统一评测基准 |
| 发布时间 | 2026-05 | 2025 |
| 案例规模 | 289 案例,1058 交互轮次 | 3000 案例 |
| 交互类型 | 导航、主体动作、事件编辑、视角切换 | 轨迹条件控制,无自由交互 |
| 多轮支持 | 原生多轮自回归评测,支持长程衰减分析 | 单场景/多场景序列,非交互式 |
| 统一接口 | Action Router(文本/6DoF/离散动作) | 统一世界规格(布局+语义) |
| 评测维度 | 视频质量、设定遵循、交互遵循、一致性、物理真实性 | 可控性、质量、动态性 |
| 核心特色 | 多轮交互衰减诊断,场景与交互解耦 | 跨 3D/4D/I2V/T2V 统一评测 |
| 在线平台 | 离线评测套件 + HuggingFace 数据集 | 离线排行榜 |
WBench的应用场景
- 世界模型研发:为视频世界模型(如 Genie、Kling、Wan 等)提供标准化评测工具,指导模型迭代优化。
- 导航与具身智能评估:专门评测模型在虚拟环境中的导航控制能力,适用于机器人、自动驾驶等具身智能方向。
- 多轮交互产品测试:帮助 AI 视频/游戏产品评估长程交互体验,如虚拟世界探索、AI 游戏引擎等。
- 学术研究基准:作为学术界研究世界模型、交互式视频生成的基础评测框架,推动领域标准化。
- 开源 vs 闭源模型选型:为企业和开发者提供客观数据,辅助选择适合特定交互任务(如导航/编辑)的模型方案。

[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/








囧静
关注网络尖刀微信公众号
