IT之家 11 月 1 日消息,宏碁宣布旗下掠夺者・刀锋 8 国行即将上市,该机至高搭载英特尔 Ultra 9 288V 处理器以及英伟达 RTX 5...
2026-07-01 11
近日,夸克AI技术团队与浙江大学强强联手,共同开源了一项创新成果——OmniAvata,这是一款领先的音频驱动全身视频生成模型,将为视频生成领域带来了革命性的变化。
传统上,音频驱动人体运动的技术多集中于面部运动,缺乏全身驱动能力,且难以进行精确控制。而OmniAvatar的出现,彻底改变了这一现状。只需要输入一张图片和一段音频,OmniAvatar即可生成相应视频,且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。不仅如此,该模型还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。
此外,长视频连续生成是音频驱动视频生成的难点,也是一项关键挑战。为此,OmniAvatar通过参考图像嵌入策略和帧重叠技术,确保了视频的连贯性和人物身份的一致性。
本次突破不仅体现在产品层面,OmniAvatar的技术革新同样值得关注。团队提出了一种基于像素的音频嵌入策略,使音频特征可以直接在模型的潜在空间中以像素级的方式融入,从而生成更协调、更自然的身体动作来匹配音频。同时,采用多层级音频嵌入策略,将音频信息嵌入到DiT模块的不同阶段中,确保模型在不同层次上保持独立的学习路径。
为了解决完整训练和仅微调特定层所带来的问题,团队还提出了一种基于LoRA的平衡微调策略。该策略使用LoRA策略高效地适应模型,使模型能够在不改变底层模型容量的情况下学习音频特征,从而兼顾了视频质量与细节。
OmniAvatar是团队在多模态视频生成上的初步尝试,并在实验数据集上得到了初步验证,但尚未达到产品级应用水平。未来,团队还将在复杂指令处理能力、多角色交互等方面进一步探索,扩大模型在更多场景中的应用。
本文系观察者网独家稿件,未经授权,不得转载。
相关文章
IT之家 11 月 1 日消息,宏碁宣布旗下掠夺者・刀锋 8 国行即将上市,该机至高搭载英特尔 Ultra 9 288V 处理器以及英伟达 RTX 5...
2026-07-01 11
教育观 在一个所有社会规则与秩序都将被颠覆的时代,我们如何跳出“学科教育”的视角来审视AGI时代;审视教育的意义?当今AI的发展让我们不得不去重新审视...
2026-07-01 35
今天给各位分享微乐麻将总输咋回事的的知识,其中也会对终于知道打微乐麻将老输怎么办进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!...
2026-07-01 15
本文仅在今日头条发布,谢绝转载。为什么西藏墨脱的地理环境这么恶劣,国家还要修一个万亿级别的世纪工程?这是因为中国的水电工程,从来都不只是 “发电站”...
2026-07-01 11
金融界2025年8月6日消息,国家知识产权局信息显示,苏州元脑智能科技有限公司申请一项名为“远程控制方法、装置、设备和存储介质”的专利,公开号CN12...
2026-07-01 81
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2026-07-01 21
近日,夸克AI技术团队与浙江大学强强联手,共同开源了一项创新成果——OmniAvata,这是一款领先的音频驱动全身视频生成模型,将为视频生成领域带来了...
2026-07-01 14
证券之星消息,根据天眼查APP数据显示石化油服(600871)新获得一项实用新型专利授权,专利名为“管道隧道用无人探测车”,专利申请号为CN20242...
2026-07-01 14
发表评论