选择你喜欢的标签
我们会为你匹配适合你的网址导航

    确认 跳过

    跳过将删除所有初始化信息

    您的位置:0XUCN > 资讯 > 智能
    新闻分类

    WBench – 美团推出的交互式视频世界模型多轮评测基准

    智能 PRO 稿源:AI工具集 2026-06-10 10:50

    WBench是什么

    WBench 是美团 LongCat 团队推出的,首个面向交互式视频世界模型的系统性多轮评测基准,包含 289 个测试案例和 1058 个交互轮次,覆盖自然、城市、幻想等 6 类场景与 7 种艺术风格。基准通过统一交互接口对 20 个前沿模型进行CT 扫描,精准定位模型从被动观看到主动交互的能力边界,揭示当前世界模型在多轮交互、导航控制和视角切换等维度的核心短板。

    WBench的主要功能

    • 多维度世界定义:支持 6 类场景(自然、城市、室内、工作区、幻想、运动)、7 种艺术风格(写实、动漫、卡通、油画、水墨、扁平、素描)及 3 种视角包括第一人称/第三人称/具身第一人称)。
    • 四类核心交互:提供导航、主体动作、事件编辑、视角切换四种交互方式。
    • 统一交互接口:通过 Action Router 将文本指令、6DoF 坐标和键盘动作统一映射为标准化输入,适配不同模型的原生接口。
    • 五维评测套件:从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五个维度进行量化评分,包含 NavScore、Gated Spatial Consistency 等硬核指标。
    • 多轮长程评估:支持连续多轮交互测试,测量模型在长时间交互后的性能衰减情况。

    WBench的技术原理

    • 四大核心要素架构:WBench 的设计遵循世界定义 + 指令集 + 统一交互接口 + 评测套件的框架。世界定义负责构建多样化的测试环境;指令集提供标准化的动作描述;统一交互接口通过 Action Router 将异构输入转换为模型可理解的信号;评测套件则从五个维度输出量化指标,形成完整的评估闭环。

    • 场景与交互解耦设计:采用舞台与剧本分离的设计理念:场景和交互独立配置,可自由组合。这种解耦使评测可精准定位问题根源。

    • 多轮自回归反馈机制:评测流程采用自回归方式:每一轮的输出帧会作为下一轮的输入,模拟真实交互场景。通过这种方式,WBench 能检测模型在长程交互中的错误累积效应,如导航能力在多轮后平均下降 33 点。

    如何使用WBench

    • 克隆仓库:访问 GitHub 仓库并克隆 WBench 代码到本地,安装 Python 依赖环境。

    • 下载数据集:从 HuggingFace 拉取包含 289 个测试案例和 1058 个交互轮次的评测数据集。

    • 接入模型:通过 Action Router 将待测模型接入 WBench 的统一交互接口,适配文本或动作输入协议。

    • 定义场景:在配置文件中选择场景类型、艺术风格、主体对象及观察视角。

    • 选择交互:从导航、主体动作、事件编辑、视角切换四类交互中组合测试动作。

    • 设定维度:启用视频质量、设定遵循度、交互遵循度、一致性、物理真实性五维评测指标。

    • 单轮测试:运行初始帧生成与单轮交互,获取模型基础能力得分。

    • 多轮测试:启动自回归模式,将上一轮输出作为下一轮输入,测量长程性能衰减。

    • 批量对比:配置多个模型并行运行相同测试用例,生成横向对比数据。

    • 查看报告:评测结束后自动生成雷达图与得分表,直观展示各维度强弱分布。

    WBench的核心优势

    • 首个多轮交互评测基准:区别于传统单轮视频生成评测,WBench 首次系统性地评估模型在连续交互中的表现,填补行业空白。
    • 覆盖全面且解耦:289 个案例覆盖 6 大场景、7 种风格、5 类主体,且场景与交互独立配置,可精准定位模型短板。
    • 统一接口兼容异构模型:通过 Action Router 适配文本驱动模型(如 Kling 3.0)和专用世界模型(如 HY-World 1.5),实现公平对比。
    • 揭示关键行业洞察:本驱动模型擅长理解,专用世界模型擅长导航;视频质量与导航能力基本无关;多轮交互是核心难点。

    WBench的项目地址

    • 项目官网:https://meituan-longcat.github.io/WBench/

    • GitHub仓库:https://github.com/meituan-longcat/WBench

    • HuggingFace模型库:https://huggingface.co/datasets/meituan-longcat/WBench

    • 技术论文:https://huggingface.co/papers/2605.25874

    WBench的同类竞品对比

    维度WBenchWorldScore
    定位多轮交互式视频世界模型评测世界生成统一评测基准
    发布时间2026-052025
    案例规模289 案例,1058 交互轮次3000 案例
    交互类型导航、主体动作、事件编辑、视角切换轨迹条件控制,无自由交互
    多轮支持原生多轮自回归评测,支持长程衰减分析单场景/多场景序列,非交互式
    统一接口Action Router(文本/6DoF/离散动作)统一世界规格(布局+语义)
    评测维度视频质量、设定遵循、交互遵循、一致性、物理真实性可控性、质量、动态性
    核心特色多轮交互衰减诊断,场景与交互解耦跨 3D/4D/I2V/T2V 统一评测
    在线平台离线评测套件 + HuggingFace 数据集离线排行榜

    WBench的应用场景

    • 世界模型研发:为视频世界模型(如 Genie、Kling、Wan 等)提供标准化评测工具,指导模型迭代优化。
    • 导航与具身智能评估:专门评测模型在虚拟环境中的导航控制能力,适用于机器人、自动驾驶等具身智能方向。
    • 多轮交互产品测试:帮助 AI 视频/游戏产品评估长程交互体验,如虚拟世界探索、AI 游戏引擎等。
    • 学术研究基准:作为学术界研究世界模型、交互式视频生成的基础评测框架,推动领域标准化。
    • 开源 vs 闭源模型选型:为企业和开发者提供客观数据,辅助选择适合特定交互任务(如导航/编辑)的模型方案。

    超好看的资讯你懂得 >>> 点击进入

    0XU.CN

    [超站]友情链接:

    四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
    关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

    图库
    公众号 关注网络尖刀微信公众号
    随时掌握互联网精彩
    赞助链接
    热门AI排行
    排名 热点 热门指数