夸克、浙大开源OmniAvatar一张图+一段音就能生成长视频

发布日期: 2025-07-30

  近期,夸克手艺团队和浙江大学撮合开源了OmniAvatar,这是一个革新的音频驱动全身视频天生模子,只须要输入一张图片和一段音频,OmniAvatar即可天生相应视频,且明显晋升了画面中人物的唇形同步细节和全身行动的通畅性。其余,还可通过提示词进一步精准操纵人物样子、心理、场景等因素。

  实习声明,OmniAvatar正在唇形同步、面部及半身视频天生、文本操纵等众个维度上,均博得领先浮现,并更好地平均了视频质料、确凿度、审美三因素。

  其余,OmniAvatar特意针对长视频天生举办了优化,能够更好地连结人物一概性和光阴连贯性。

  而今,音频驱感人体运动的手艺已博得明显开展,但群众半要领仍荟萃正在面部运动,缺乏全身驱动的材干,且难以举办切确的提示词操纵。

  OmniAvatar以Wan2.1-T2V-14B为根基模子,愚弄LoRA要领举办微调,有用地引入了音频特性。这种连接不光保存了Wan2.1-T2V-14B正在视频天生方面的巨大材干,还进步了模子对音频输入的适合性和天生质料。

  OmniAvatar或许遵循输入的音频和提示词,天生虚拟人物视频,此中,人物的唇形运动与音频内容吻合,场景则响应了提示词内容:

  正在带有镜头运动的场景中,OmniAvatar仍或许连结面部、行动和靠山的自然通畅,外示了模子正在动态场景下的巨大适合材干:

  关于长视频天生,OmniAvatar通过参考图像嵌入战术和帧重叠手艺,确保了视频的连贯性和人物身份的一概性:

  群众半现有要领平常依赖交叉属意力机制来引入音频特性,固然恶果优良,但会引入大批非常的准备开销,而且容易太甚闭切音频与面部特性之间的闭联。

  针对这一题目,团队提出了一种基于像素的音频嵌入战术,使音频特性能够直接正在模子的潜正在空间中以像素级的式样融入。通过这一要领,不光能够自然地将唇部运动与音频内容对齐,还或许确保音频消息正在扫数视频像素中匀称散布,从而使模子天生更协作、更自然的身体行动来般配音频。

  该战术起首应用Wav2Vec2模子提取音频特性,然后对这些特性举办分组打包和压缩,再通过音频打包模块照射到视频的潜正在空间中。

  接下来,为了确保模子正在深层收集中能有用地练习和保存音频特性,OmniAvatar采用了一种众层级音频嵌入战术,将音频消息嵌入到DiT模块的差别阶段中。为防卫音频特性对潜正在空间爆发太甚滋扰,音频嵌入仅操纵于模子的第二层至中央层之间的模块 。其余,这些层的权重不共享,使模子或许正在差别目标上连结独立的练习途径。

  目前,针对音频条目扩散模子的要领要紧用命两种战术:一种是磨练完美的模子,另一种是仅微调特定层。

  正在举办完美磨练时,团队呈现更新完全层反而会导致模子天生的连贯性和视频质料降落。全体来看,因为模子太甚拟合人类语音数据集,导致泛化材干差,容易天生不切本质或静态的内容,难以逮捕细节。但另一方面,仅微协和音频特性闭联的层会导致音频和视频之间的对齐恶果差,唇形同步功能受损。

  为通晓决这些离间,团队提出了一种基于LoRA的平均微调战术。该战术差别于以上两种要领,而是应用LoRA战术高效地适合模子。LoRA通过正在属意力和前向宣扬(FFN)层的权重更新中引入低秩矩阵,使模子或许正在不转折底层模子容量的情景下练习音频特性。

  长视频继续天生是音频驱动视频天生的难点,也是一项要害离间。为此,团队提出了参考图嵌入和重叠帧战术,以竣工人物的身份保存和光阴一概性。

  身份保存。OmniAvatar引入了一个参考帧,行为人物身份的固定领导。全体来看,起首需提取参考帧的潜正在体现;然后将这些体现众次反复,使其长度与视频帧数般配;接下来,再正在每个光阴步,将这个反复的参考帧潜正在体现与视频潜正在体现举办毗邻。所以,通过参考帧安排,可有用锚定人物身份,确保正在扫数长视频序列中的人物一概性。

  光阴一概性。为了竣工无缝的视频继续性,OmniAvatar采用了一种潜正在重叠战术。起首,正在磨练时应用单帧和众帧前缀潜正在变量的组合举办磨练;其次,正在推理进程中,关于第一批的帧,参考帧既行为前缀潜正在变量,又行为身份领导;关于后续批次,则用前一组的结尾帧行为潜正在变量,参考帧仍连结固定用作身份领导。

  OmniAvatar是团队正在众模态视频天生上的开始实验,并正在实习数据集上获得了开始验证,但尚未抵达产等级操纵秤谌。将来,团队还将正在庞杂指令处罚材干、众脚色交互等方面进一步找寻,增添模子正在更众场景中的操纵。返回搜狐,查看更众