多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归(Auto-Regressive)的方式将视频特征作为前缀来逐个生成音频 token,或者以掩码预测(Mask-Prediction)的方式并行地预测音频 token,逐步生成完整音频。
这两种方法都依赖于音频的离散化表示,而离散化处理往往由于信息损失会限制音质上限。
最近主流方法大多采用扩散模型或流匹配架构,通过「从噪声生成音频」的方式来实现视频驱动的声音合成。这种方式不依赖离散 token 表征,直接在连续的隐空间进行建模。通过采样随机噪声,并将视频信息作为条件,模型从噪声中逐步去噪,最终生成音频。但是这样的范式仍然存在两个天然瓶颈:
- 同一视频条件下的多对一映射:在训练阶段,模型被训练从不同的采样噪声中预测同一个音频,多对一的映射关系增加了训练难度;推理阶段,由于不同噪声样本通过 ODE 求解得到的推理结果差异较大,生成的音频质量难以保持一致,甚至出现「抽奖」现象。
- 不同视频条件下的一对多映射:在训练和推理阶段,模型被要求从相同的采样噪声出发只根据不同视频条件生成不同的音频,这要求模型具备极强的条件处理能力。

主流扩散模型或流匹配架构的挑战
因此,模型需要从随机噪声中逐步「听懂」视频,这一过程依赖复杂的条件机制,导致路径复杂、训练低效且生成结果不稳定。
在这一背景下,中国人民大学宋睿华带领的 AIMind 团队与值得买科技 AI 团队提出了一个全新的框架 —— VAFlow。研究者提出:既然从噪声到声音依赖复杂的视频条件机制并且有上述局限,为什么不直接从视频出发生成声音?
基于这一思路,团队设计了一个直接建模「视频→音频」映射的跨模态流匹配框架 VAFlow。它摆脱了对高斯噪声先验的依赖,首次实现了从视频分布直接生成音频的范式转变,并在生成质量、语义对齐与同步精度上取得了显著突破。该研究已正式发表于 ICCV 2025。
