选择你喜欢的标签
我们会为你匹配适合你的网址导航

跳过将删除所有初始化信息

您的位置：0XUCN > 资讯 > 智能

新闻分类

科技
- 通信
- 数码
- 科学
互联网
- 融资
- 新零售
- 企服
- 共享
- 教育
- 医疗
- 物联网
- 安全
- 智能
- 政策
- 动态
- 技术
- 软件
娱乐
- 电影
- 电视剧
- 综艺
- 动漫
- 音乐
- 明星
- 网娱
- 韩娱
- 热点
- 值得买
游戏
- 手游
- 端游
- 页游
- 主机
- 公告
- 攻略
体育
- 业界
- 足球
- 篮球
- 彩票
汽车
- 车讯
- 新车
- 评测
时尚
- 奢侈品
- 时装
- 美妆
- 美体
健康
- 疾病
- 两性
- 健美
- 医美
- 养生
- 新冠
旅游
母婴
- 孕产
- 哺育
- 早教
- 亲子
- 萌娃
房产
- 资讯
- 家居
- 家电
教育
- 高考
- 考研
- 公考
- 留学
- 高校
- 小初高
宠物
- 资讯
- 百科
- 训练
- 常识
- 宠物用品
其它
造数

WBench – 美团推出的交互式视频世界模型多轮评测基准

智能 PRO 稿源：AI工具集 2026-06-10 10:50

WBench是什么

WBench 是美团 LongCat 团队推出的，首个面向交互式视频世界模型的系统性多轮评测基准，包含 289 个测试案例和 1058 个交互轮次，覆盖自然、城市、幻想等 6 类场景与 7 种艺术风格。基准通过统一交互接口对 20 个前沿模型进行CT 扫描，精准定位模型从被动观看到主动交互的能力边界，揭示当前世界模型在多轮交互、导航控制和视角切换等维度的核心短板。

WBench的主要功能

多维度世界定义：支持 6 类场景（自然、城市、室内、工作区、幻想、运动）、7 种艺术风格（写实、动漫、卡通、油画、水墨、扁平、素描）及 3 种视角包括第一人称/第三人称/具身第一人称）。
四类核心交互：提供导航、主体动作、事件编辑、视角切换四种交互方式。
统一交互接口：通过 Action Router 将文本指令、6DoF 坐标和键盘动作统一映射为标准化输入，适配不同模型的原生接口。
五维评测套件：从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五个维度进行量化评分，包含 NavScore、Gated Spatial Consistency 等硬核指标。
多轮长程评估：支持连续多轮交互测试，测量模型在长时间交互后的性能衰减情况。

WBench的技术原理

四大核心要素架构：WBench 的设计遵循世界定义 + 指令集 + 统一交互接口 + 评测套件的框架。世界定义负责构建多样化的测试环境；指令集提供标准化的动作描述；统一交互接口通过 Action Router 将异构输入转换为模型可理解的信号；评测套件则从五个维度输出量化指标，形成完整的评估闭环。
场景与交互解耦设计：采用舞台与剧本分离的设计理念：场景和交互独立配置，可自由组合。这种解耦使评测可精准定位问题根源。
多轮自回归反馈机制：评测流程采用自回归方式：每一轮的输出帧会作为下一轮的输入，模拟真实交互场景。通过这种方式，WBench 能检测模型在长程交互中的错误累积效应，如导航能力在多轮后平均下降 33 点。

如何使用WBench

克隆仓库：访问 GitHub 仓库并克隆 WBench 代码到本地，安装 Python 依赖环境。
下载数据集：从 HuggingFace 拉取包含 289 个测试案例和 1058 个交互轮次的评测数据集。
接入模型：通过 Action Router 将待测模型接入 WBench 的统一交互接口，适配文本或动作输入协议。
定义场景：在配置文件中选择场景类型、艺术风格、主体对象及观察视角。
选择交互：从导航、主体动作、事件编辑、视角切换四类交互中组合测试动作。
设定维度：启用视频质量、设定遵循度、交互遵循度、一致性、物理真实性五维评测指标。
单轮测试：运行初始帧生成与单轮交互，获取模型基础能力得分。
多轮测试：启动自回归模式，将上一轮输出作为下一轮输入，测量长程性能衰减。
批量对比：配置多个模型并行运行相同测试用例，生成横向对比数据。
查看报告：评测结束后自动生成雷达图与得分表，直观展示各维度强弱分布。

WBench的核心优势

首个多轮交互评测基准：区别于传统单轮视频生成评测，WBench 首次系统性地评估模型在连续交互中的表现，填补行业空白。
覆盖全面且解耦：289 个案例覆盖 6 大场景、7 种风格、5 类主体，且场景与交互独立配置，可精准定位模型短板。
统一接口兼容异构模型：通过 Action Router 适配文本驱动模型（如 Kling 3.0）和专用世界模型（如 HY-World 1.5），实现公平对比。
揭示关键行业洞察：本驱动模型擅长理解，专用世界模型擅长导航；视频质量与导航能力基本无关；多轮交互是核心难点。

WBench的项目地址

项目官网：https://meituan-longcat.github.io/WBench/
GitHub仓库：https://github.com/meituan-longcat/WBench
HuggingFace模型库：https://huggingface.co/datasets/meituan-longcat/WBench
技术论文：https://huggingface.co/papers/2605.25874

WBench的同类竞品对比

维度	WBench	WorldScore
定位	多轮交互式视频世界模型评测	世界生成统一评测基准
发布时间	2026-05	2025
案例规模	289 案例，1058 交互轮次	3000 案例
交互类型	导航、主体动作、事件编辑、视角切换	轨迹条件控制，无自由交互
多轮支持	原生多轮自回归评测，支持长程衰减分析	单场景/多场景序列，非交互式
统一接口	Action Router（文本/6DoF/离散动作）	统一世界规格（布局+语义）
评测维度	视频质量、设定遵循、交互遵循、一致性、物理真实性	可控性、质量、动态性
核心特色	多轮交互衰减诊断，场景与交互解耦	跨 3D/4D/I2V/T2V 统一评测
在线平台	离线评测套件 + HuggingFace 数据集	离线排行榜

WBench的应用场景

世界模型研发：为视频世界模型（如 Genie、Kling、Wan 等）提供标准化评测工具，指导模型迭代优化。
导航与具身智能评估：专门评测模型在虚拟环境中的导航控制能力，适用于机器人、自动驾驶等具身智能方向。
多轮交互产品测试：帮助 AI 视频/游戏产品评估长程交互体验，如虚拟世界探索、AI 游戏引擎等。
学术研究基准：作为学术界研究世界模型、交互式视频生成的基础评测框架，推动领域标准化。
开源 vs 闭源模型选型：为企业和开发者提供客观数据，辅助选择适合特定交互任务（如导航/编辑）的模型方案。

超好看的资讯你懂得 >>> 点击进入

0XU.CN

[超站]友情链接：

四季很好，只要有你，文娱排行榜：https://www.yaopaiming.com/
关注数据与安全，洞悉企业级服务市场：https://www.ijiandao.com/

*文章为作者独立观点，不代表 0XUCN 立场

本文由囧静发表，转载此文章须经作者同意，并请附上出处(0XUCN)及本页链接。

原文链接 https://www.0xu.cn/article/intelnet/intelligent/67556.html

AI工具集 WBench 美团 LongCat

图库

公众号

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接

processon

itrust

SSL

K2CMS

热门AI排行

排名热点热门指数

1 DeepSeek -
2 ChatGPT -
3 腾讯元宝 -
4 豆包 -
5 Gemini -
6 通义千问 -
7 Grok -
8 讯飞星火 -
9 文心一言 -
10 Kimi -

分享文章

微信
微信扫码分享

新浪微博
离开
复制链接
返回顶部