瞄准 Sora 2，谷歌发布 Veo 3.1，功能大更新，但硬刚还差点儿

排行榜 2025年10月21日 04:11 0 admin

内容转载自「机器之心」

正如前几天网上泄露与传闻所预料的那样，深夜，谷歌发布了最新的 AI 视频生成模型 Veo 3.1。

较先前版本相比，Veo 3.1 带来了更丰富的音频、叙事控制，以及更逼真的质感还原。在 Veo 3 的基础上，Veo 3.1 进一步提升了提示词遵循度，并在以图生视频时提供更高的视听质量。

同时，AI 电影创作工具 Flow 进行了更新，可以帮助用户更精细地编辑视频片段，对最终场景实现更颗粒化的控制。

AI 自媒体「卡兹克」对 Veo 3.1 的实际表现进行了测试，和 Sora2 Pro 进行了对比。

在模型质量方面，Veo 3.1 在模型质量上相比前代提升不大，画面甚至感觉更「油腻」和虚假；在生成时长方面，与传闻中能生成长达 1 分钟的视频不同，Veo 3.1 的基础生成时长依旧为8秒，虽然可以延长至 30 秒，但在延长视频时会产生音频不连贯问题，导致延长部分几乎不可用。

总结下，Veo 3.1 的更新更多体现在功能的增加上，核心模型质量并无质的飞跃，离 Sora2 还有一段距离。

以下为 Veo 3.1 更新的详细介绍。

超 15000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；
不定期赠送热门新品的邀请码、会员码；
最精准的AI产品曝光渠道

更强的叙事与音频控制

Veo 3.1 在其前代版本 Veo 3（于 2025 年 5 月发布）的基础上进行了升级，增强了对对话、环境音效以及其他音频效果的支持。

如今，在 Flow 的多个核心功能中，包括连帧成片、素材生成视频和延展，均已支持原生音频生成。这些功能允许用户：

将静态图像转换为视频；
将多张图像中的人物、物体或元素整合进同一视频中；
生成比原始 8 秒更长的视频片段，可延展至 30 秒甚至 1 分钟以上，并从上一段的最后一帧自然衔接延续。

提供包含不同人物和物体的多个参考图像，Veo 3.1 可以将它们整合成一个完整的场景，并带有声音。

Veo 3.1 可以创建更长的剪辑，甚至可以持续一分钟或更长时间，以延续原始镜头中的动作。生成的每个视频都基于前一个剪辑的最后一秒，以帮助延续故事，并保持背景和人物的一致性。

在此之前，用户必须在使用这些功能后手动添加音频。

如今，原生音频的引入让用户能更好地掌控视频的情绪、节奏与叙事基调，这些以往只能通过后期制作实现的能力，现在可以直接在生成阶段完成。

在企业场景中，这种更高层次的控制有望减少独立音频制作流程的需求，提供一种音画同步的集成式创作方式，便于制作培训内容、营销视频或数字体验作品。

更丰富的输入与编辑能力

借助 Veo 3.1，谷歌引入了对多种输入类型的支持，并提供了对生成结果更精细的控制。该模型可接受文本提示、图像以及视频片段作为输入，并进一步支持：

参考图像（最多三张），用于引导最终输出画面中的外观与风格；
首帧与末帧插值，可在固定的起止画面之间生成平滑衔接的过渡场景；
场景延展，可让视频的动作或运动超出原本时长继续发展。

给出第一帧和最后一帧，Veo 将使整个场景栩栩如生，帮助用户创建具有史诗般过渡的无缝视频。

此外，谷歌还引入了如插入（Insert）（向场景中添加物体）和移除（Remove）（删除元素或角色）等新功能，但并非所有功能目前都能通过 Gemini API 即时使用。

多平台部署

Veo 3.1 可通过谷歌旗下多项现有 AI 服务访问：

Flow：谷歌自家的 AI 辅助电影创作平台；
Gemini API：面向希望在应用中集成视频生成功能的开发者；
Vertex AI：企业级集成平台，后续将支持 Veo 的「场景延展」等核心功能。

价格与访问方式

Veo 3.1 模型目前处于预览阶段，仅在 Gemini API 的付费层级中可用。其收费结构与上一代 AI 视频模型 Veo 3 保持一致：

标准模型（Standard model）：每秒视频 0.40 美元
快速模型（Fast model）：每秒视频 0.15 美元

目前尚无免费层级，且仅在视频成功生成后才会计费。这种计费方式与此前的 Veo 系列保持一致，为注重成本管理的企业团队提供了可预测的预算模式。

技术规格与输出控制

Veo 3.1 支持输出 720p 或 1080p 分辨率的视频，帧率为 24 帧 / 秒（fps）。

在使用文本提示或上传图像生成视频时，时长可选 4 秒、6 秒或 8 秒；
若使用 Extend 功能，视频最长可扩展至 148 秒（超过两分半）。

新功能还带来了对主体与环境的更精确控制。

例如，企业用户可以上传一张产品图片或视觉参考，Veo 3.1 将在整个视频中生成保持其外观特征与风格一致性的场景。

这一能力有助于简化创意生产流程，特别适用于零售、广告以及虚拟内容制作等需要品牌一致性和视觉延续性的团队。

最后，我们看看网友脑洞大开的创意：

转载原创文章请添加微信：founderparker

AI时代城市文化如何发展创新？“城市文化国际对话”系列研讨活动在静安举办

5亿：中交二航局中大项目

发表评论

瞄准 Sora 2，谷歌发布 Veo 3.1，功能大更新，但硬刚还差点儿

更强的叙事与音频控制

更丰富的输入与编辑能力

多平台部署

价格与访问方式

技术规格与输出控制

AI时代城市文化如何发展创新？“城市文化国际对话”系列研讨活动在静安举办

5亿：中交二航局中大项目

热门文章

最新文章

瞄准 Sora 2，谷歌发布 Veo 3.1，功能大更新，但硬刚还差点儿

更强的叙事与音频控制

更丰富的输入与编辑能力

多平台部署

价格与访问方式

技术规格与输出控制

AI时代城市文化如何发展创新？“城市文化 国际对话”系列研讨活动在静安举办

5亿：中交二航局中大项目

热门文章

最新文章

AI时代城市文化如何发展创新？“城市文化国际对话”系列研讨活动在静安举办