MOVA – 创智学院联合模思智能开源的端到端音视频模型

智能 PRO 稿源：AI工具集 2026-02-03 11:06

MOVA是什么

MOVA（MOSS Video and Audio）是上海创智学院OpenMOSS团队与模思智能（MOSI）联合推出的，中国首个高性能开源音视频端到端生成模型。模型突破传统视频”静音”局限，采用异构双塔架构与双向桥接模块，实现原生跨模态交互。模型拥有320亿参数（MoE架构，推理激活180亿），可同步生成长达8秒、720p分辨率的视频与配套音频，在电影级口型同步、环境音效契合度上表现卓越。

MOVA的主要功能

端到端音视频生成：模型能一次性同步输出视频与配套音频，告别”哑巴视频”。
双模式驱动生成：支持图像+文本或纯文本输入，灵活控制生成内容。
电影级口型同步：模型能精准匹配人物说话时的嘴型与语音，支持中英文多人物对话。
智能环境音效：根据画面场景自动合成匹配的背景音乐、动作声与环境音。
视频文字渲染：模型可在画面指定位置生成清晰可读的动态文字内容。
高分辨率输出：模型最高支持720p分辨率、8秒时长的视听片段生成。

MOVA的技术原理

异构双塔架构：模型采用14B视频扩散模型与1.3B音频扩散模型分别处理视觉与听觉信息，通过双向桥接模块实现两层隐藏状态的深度交叉注意力融合，让画面生成全程感知声音节奏。
跨模态时间对齐：视频与音频的采样密度差异巨大，Aligned ROPE机制通过精确的缩放比例映射，将两种模态的Token统一到同一物理时间坐标系，从根本上消除音画不同步问题。
渐进式训练策略：模型分三阶段由粗到细训练，先用360p低分辨率让随机初始化的桥接模块快速学会音视频对齐，逐步提升对齐稳定性，最后扩展到720p高分辨率进行画质精修。
双重CFG推理：针对音视频联合生成存在文本指令和模态桥接两个控制源的特点，支持独立调节两者的引导权重，在一般场景保画面质量，在对话场景强口型精度。