AI终于会“演”了！我们还原了一段“丝瓜汤”修罗场，微表情绝了

抖音热门 2025年09月25日 21:07 0 admin

AI应用方向标（公众号：ZhidxcomAI）

作者｜江宇

编辑｜漠影

智东西9月25日报道，生数科技今日正式发布新一代图生视频大模型Vidu Q2。

新模型以“看AI演戏”为主题，强调“细微表情生成”的突破，支持2至8秒时长的生成视频与首尾帧模式，并在语义理解、推拉运镜、出片速度等方面全面优化，将AI生成视频能力从“生成动态”进化为“生成情绪”。

Vidu Q2在复杂文戏（如情绪表达）、武戏（多人打斗）、特效戏（视觉冲击）三类常见影视场景中均表现稳定，目前支持网页版、App及API多端使用。

一、体验：AI也能“唠叨演戏”，角色情绪一镜到底

为了验证Vidu Q2在微表情与“演技生成”方面的真实提升，智东西体验了网络上爆火的“丝瓜汤”场景。

整个生成流程依托Vidu AI手机端完成。APP首页共提供了三种功能模式：图生视频、参考生视频与参考生图。

其中，参考生视频和参考生图模式支持用户上传自定义图片，也可从内置的“主体库”中直接选择已有角色形象。该主体库不仅包含用户过往创作中的素材，还整合了社区内容，方便快速复用。

而图生视频功能下，Vidu Q2模型支持“首尾帧生成”与“电影大片”“闪电出片”双模式，视频时长可灵活设定为2至8秒。

本次体验选择“图生视频”功能，并手动添加了收尾帧：开头帧为母亲角色，结尾帧为儿子角色。

参数设置中，智东西选用的是免费档位下画质最优配置：时长5秒、清晰度1080P、生成模式为“电影大片”。调用的模型版本为最新的Vidu Q2。

实际指令设定如下：

“妈妈问儿子喝不喝丝瓜汤，儿子表示不想喝，妈妈便开启‘洗脑’模式反复唠叨丝瓜汤的好处，如‘丝瓜汤去肝火的呀’‘丝瓜汤营养好得不得了’等。当儿子最终被说烦，大声拒绝时，妈妈反问‘你以前脾气没这么差，是不是肝火太旺？喝点丝瓜汤补补吧。’”

生成视频约在3分钟内完成。从结果来看，AI角色的表现已具备较高的形象一致性和情绪逻辑。儿子在不耐烦阶段的表情也处理得较为连贯，明显可见情绪的变化。

虽然当前版本尚未支持音画同步，但视频画面本身已具备较强的表演力，若后续叠加语音合成或角色音轨，将更贴近真实剧情片段。

从这轮体验来看，Vidu Q2确实补上了以往AI视频生成中“表情控制”和“角色一致性”的关键短板，使生成内容具备初步的情绪逻辑与表现力。

从“丝瓜汤”体验中AI对角色情绪的“演绎”出发，Vidu Q2有多项底层技术的突破。

当前主流AI视频模型多以生成连贯动态为主要目标，但常陷于“面瘫”“眼神空洞”等问题，难以支撑复杂剧情。Vidu Q2则将“情绪表达”作为系统性优化方向，通过对微表情生成的升级，补足了AI视频的情感表现力短板。

它支持呈现嘴角轻抽、眼神游移、眉头紧锁等细微肌肉动作，并通过多模态融合方式，将文本语义、图像内容、面部动作单元等信息共同驱动生成。这让角色的面部和肢体表演均具备“情绪逻辑”。

功能上，Vidu Q2新增“首尾帧生成”模式，并提供“电影大片”“闪电出片”两种风格选择，适配短视频创作与剧情片段表达需求：

1、在影视文戏中，Vidu Q2可模拟人物情绪起伏；

2、在打斗动作戏中，角色面部表情与肢体动作连贯统一；

3、在广告特效中，可实现角色表演与视觉冲击效果的融合。

Vidu Q2的发布，让AI具备了“可表演”的能力，使其在内容生成链条中不再只是“工具”，而尝试从事“演员”的身份。

未来，随着音画同步、剧本驱动、角色持久记忆等能力逐步补齐，AI将在更多文艺与商业创作场景中承担起更复杂的任务。而这，也为短视频内容生产、虚拟数字人、广告生成等赛道提供了全新可能。

发表评论