中国团队领先全球！开发专注人物对话视频AI，打破外国门槛还免费

今日新闻 2025年10月16日 04:53 1 aa

文 | 金锐点

编辑 | 金锐点

Sora2把AI视频赛道的热度带起来后，不少想做视频的人都遇到个麻烦。

想弄一段人物对话内容，要么得等国外模型的邀请码，要么付费成本太高，更别说找个专门盯着“人物对话”做的工具了。

不过前不久，中国团队做的GagaAI补上了这个空缺，它推出的GAGA-1，是全球首个专门聚焦“人物对话”的影视级音画同出模型，不光不用等邀请码就能注册，现在还能免费体验。

如果你之前也因为缺演员、对口型麻烦、制作花钱多，让好点子卡在路上，或许可以看看它能不能解决这些问题。

GAGA-1最核心的能力，刚好戳中了很多普通创作者的需求，你只需要上传一张人物图片。

用日常语言说说角色该有什么情绪、动作，再把台词用引号括起来，就能生成一段口型对得准、表情也自然的视频。

更实用的是，它还能处理双人同框对话的场景，这对过去要反复协调两人时间、后期还要调口型的人来说，确实省了不少麻烦。

有尝试过的创作者用它做了个测试，生成了Sam Altman穿越到中国古代当皇帝的视频。

模型把“男人用低沉、威严的声音说‘传朕旨意，给朕打造一个通用宫廷智能’”的场景还原得很到位。

连眼神里那种对技术梦想的执着劲儿，都通过细微的表情传出来了，和设定很贴合。

要知道它能不能演，光看一个场景不够，在一次模拟现实情感冲突的测试里，它把细腻情绪把控得不错。

画面里有个手捧咖啡杯的女人，眼泪在眼眶里打转，声音哽咽着说“I gave him everything...and in the end,it wasn't enough”，说完还自然地抿了口咖啡。

要是用传统方式拍这段，至少得花1-2小时帮演员找情绪，而GAGA-1只要一段清楚的指令，几分钟就能弄好。

不光是现实情感戏，面对需要细腻情绪层次的场景，它也能接住，比如一段哀求戏，指令要求“男人眼神里满是哀求，声音沙哑脆弱。

生成的视频里，这个男性角色全程皱着眉、嘴唇微张，眼神里的恳求感一下就能让人代入，口型和台词也对得很准。

就算是讽刺和悲伤混在一起的复杂情绪，它也能抓准，角色从平静带点忧思，到嘴角露出讽刺的笑，再转到纯粹的悲伤。

情绪变自然不突兀，搭配的声音也有故事感，让画面更有感染力，除了这些，它在多语言和特殊风格场景里的表现，也能看出“专注人物对话”的优势。

这对需要做跨语言对话内容的人来说很实用，不用再额外找小语种配音了。

更让人意外的是，它对非写实素材也能处理，有次测试用了蒙娜丽莎的画，指令是“画里的女人神秘又温柔地说一句话，GAGA-1没破坏原作的质感，还通过慢慢推进的镜头，让画里的人自然“开口”。

有点像《哈利波特》里会动的魔法肖像，搭配的声音神秘又有智慧，和大家对蒙娜丽莎的印象很合，口型也没违和感。

还有次模拟“小大人”的场景，让童年时期的Jodie Foster说一段她成年后采访里的话。

指令要求“小女孩带着欣赏和向往的笑，眼里闪着机灵的光，语速流畅、声音稚嫩地说，它连“um…”这样的口头禅、自然的思考停顿都还原了，活脱脱一个早熟又有主见的小女孩样子。

背后做这款模型的是Sand.ai，一支全华班的初创团队，在AI视频领域，它不像那些大公司那么出名，但技术底子挺扎实。

之前开源过全球首个高质量自回归架构视频模型，在业内也算小有名气，被称作AI视频领域的“DeepSeek”。

更难得的是，这支团队没花太高成本，就做出了达到全球顶尖水平的“人物表演”视频模型。

要知道，国外做类似模型，往往得投上千万美元，Sand.ai靠精准抓技术方向，打破了要做好模型就得花大价钱的固定印象。

不过客观说，GAGA-1也不是没短板，在胸部以上的写实风格、近景对话视频里，它表现得没话说。

但一旦涉及全身动作生成、复杂的镜头移动，或者二次元、拟人化动物这类非写实风格，稳定性和效果就会差一点。

虽然能稳住双人互动，但要是场景里人物超过两个，生成成功率会下降，处理吃饭、抽烟这类不是对话的口部动作时，效果也比不上对话场景。

另外，要是台词是较长的中文，偶尔会有发音不准、含混的情况，但英文长台词的表现一直很稳。

但这些短板，不影响它给创作者带来的便利，尤其是对比国外模型的“门槛”，它的优势更明显。

从现在的商业化策略能看出来，GAGA-1走的是“普惠”路线，目前完全开放免费体验，不用限制。

就算以后开始收费，定价也会比Veo3、Sora2低一个档次，参考它旧功能GagaAvatar的定价，用户可以选订阅，也能直接买积分，1美元能买100积分。

按10秒视频消耗10积分算，单条视频成本才0.1美元，比国外竞品1-2美元一条的成本低多了。

对普通创作者来说，这意味着过去要团队协作、花不少钱才能做的人物表演环节，现在一个人、一张图、一段台词就能搞定。

人人都能当导演不再是只能说说的口号，从Sora2到GAGA-1，AI视频赛道的竞争，本质上是看谁更懂创作者的真实需求。

国外模型确实强，但常常用邀请码、高定价把人挡在外面，而中国团队做的GAGA-1，找准了“专注人物对话”的方向，还靠零门槛、低成本，真正帮到了不少普通创作者。

或许以后它解决了全身动作、多人场景这些问题，还能有更好的表现，但就现在来说。

它已经从让图片开口说话做到了给角色加些灵魂，让更多人的视频创意能落地。

如果你之前也因为成本、技术门槛，让好点子没做成视频，或许可以试试GAGA-1，它未必完美，但确实让创作这件事，变得更简单了些。

四川钻到地下万米！别信 “地狱之门”，这才是真地球探秘丨太好“科”了

第十五届墨子鲁班学术研讨会暨第十届科技文化节将在山东滕州举办

发表评论

中国团队领先全球！开发专注人物对话视频AI，打破外国门槛还免费

四川钻到地下万米！别信 “地狱之门”，这才是真地球探秘丨太好“科”了

第十五届墨子鲁班学术研讨会暨第十届科技文化节将在山东滕州举办

热门文章

最新文章