选择你喜欢的标签
我们会为你匹配适合你的网址导航

    确认 跳过

    跳过将删除所有初始化信息

    您的位置:0XUCN > 资讯 > 智能
    新闻分类

    MOVA – 创智学院联合模思智能开源的端到端音视频模型

    智能 PRO 稿源:AI工具集 2026-02-03 11:06

    MOVA是什么

    MOVA(MOSS Video and Audio)是上海创智学院OpenMOSS团队与模思智能(MOSI)联合推出的,中国首个高性能开源音视频端到端生成模型。模型突破传统视频”静音”局限,采用异构双塔架构与双向桥接模块,实现原生跨模态交互。模型拥有320亿参数(MoE架构,推理激活180亿),可同步生成长达8秒、720p分辨率的视频与配套音频,在电影级口型同步、环境音效契合度上表现卓越。

    MOVA的主要功能

    • 端到端音视频生成:模型能一次性同步输出视频与配套音频,告别”哑巴视频”。
    • 双模式驱动生成:支持图像+文本或纯文本输入,灵活控制生成内容。
    • 电影级口型同步:模型能精准匹配人物说话时的嘴型与语音,支持中英文多人物对话。
    • 智能环境音效:根据画面场景自动合成匹配的背景音乐、动作声与环境音。
    • 视频文字渲染:模型可在画面指定位置生成清晰可读的动态文字内容。
    • 高分辨率输出:模型最高支持720p分辨率、8秒时长的视听片段生成。

    MOVA的技术原理

    • 异构双塔架构:模型采用14B视频扩散模型与1.3B音频扩散模型分别处理视觉与听觉信息,通过双向桥接模块实现两层隐藏状态的深度交叉注意力融合,让画面生成全程感知声音节奏。

    • 跨模态时间对齐:视频与音频的采样密度差异巨大,Aligned ROPE机制通过精确的缩放比例映射,将两种模态的Token统一到同一物理时间坐标系,从根本上消除音画不同步问题。

    • 渐进式训练策略:模型分三阶段由粗到细训练,先用360p低分辨率让随机初始化的桥接模块快速学会音视频对齐,逐步提升对齐稳定性,最后扩展到720p高分辨率进行画质精修。

    • 双重CFG推理:针对音视频联合生成存在文本指令和模态桥接两个控制源的特点,支持独立调节两者的引导权重,在一般场景保画面质量,在对话场景强口型精度。

    MOVA的项目地址

    • 项目官网:https://mosi.cn/models/mova

    • GitHub仓库:https://github.com/OpenMOSS/MOVA

    • HuggingFace模型库:https://huggingface.co/collections/OpenMOSS-Team/mova

    MOVA的应用场景

    • 影视制作:快速生成分镜预览与配音小样,降低前期制作成本,加速创意验证。

    • 短视频创作:为创作者提供带音效的高质量剧情素材,提升产出效率,丰富内容形式。

    • 游戏开发:自动生成过场动画与角色对话,实现音画同步的沉浸体验,缩短开发周期。

    • 教育培训:制作多语言口型精准的教学视频,支持全球化内容适配,提升学习效果。

    • 电商营销:产出带解说与背景音乐的产品展示视频,加速营销内容迭代,增强转化能力。

    超好看的资讯你懂得 >>> 点击进入

    0XU.CN

    [超站]友情链接:

    四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
    关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

    图库
    公众号 关注网络尖刀微信公众号
    随时掌握互联网精彩
    赞助链接
    热门AI排行
    排名 热点 热门指数