内容转载自「机器之心」正如前几天网上泄露与传闻所预料的那样,深夜,谷歌发布了最新的 AI 视频生成模型 Veo 3.1。较先前版本相比,Veo 3.1...
2025-10-21 0
内容转载自「机器之心」
正如前几天网上泄露与传闻所预料的那样,深夜,谷歌发布了最新的 AI 视频生成模型 Veo 3.1。
较先前版本相比,Veo 3.1 带来了更丰富的音频、叙事控制,以及更逼真的质感还原。在 Veo 3 的基础上,Veo 3.1 进一步提升了提示词遵循度,并在以图生视频时提供更高的视听质量。
同时,AI 电影创作工具 Flow 进行了更新,可以帮助用户更精细地编辑视频片段,对最终场景实现更颗粒化的控制。
AI 自媒体「卡兹克」对 Veo 3.1 的实际表现进行了测试,和 Sora2 Pro 进行了对比。
在模型质量方面,Veo 3.1 在模型质量上相比前代提升不大,画面甚至感觉更「油腻」和虚假;在生成时长方面,与传闻中能生成长达 1 分钟的视频不同,Veo 3.1 的基础生成时长依旧为8秒,虽然可以延长至 30 秒,但在延长视频时会产生音频不连贯问题,导致延长部分几乎不可用。
总结下,Veo 3.1 的更新更多体现在功能的增加上,核心模型质量并无质的飞跃,离 Sora2 还有一段距离。
以下为 Veo 3.1 更新的详细介绍。
超 15000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。
进群后,你有机会得到:
最新、最值得关注的 AI 新品资讯;
不定期赠送热门新品的邀请码、会员码;
最精准的AI产品曝光渠道
01
Veo 3.1 在其前代版本 Veo 3(于 2025 年 5 月发布) 的基础上进行了升级,增强了对对话、环境音效以及其他音频效果的支持。
如今,在 Flow 的多个核心功能中,包括连帧成片、素材生成视频和延展,均已支持原生音频生成。这些功能允许用户:
将静态图像转换为视频;
将多张图像中的人物、物体或元素整合进同一视频中;
生成比原始 8 秒更长的视频片段,可延展至 30 秒甚至 1 分钟以上,并从上一段的最后一帧自然衔接延续。
提供包含不同人物和物体的多个参考图像,Veo 3.1 可以将它们整合成一个完整的场景,并带有声音。
Veo 3.1 可以创建更长的剪辑,甚至可以持续一分钟或更长时间,以延续原始镜头中的动作。生成的每个视频都基于前一个剪辑的最后一秒,以帮助延续故事,并保持背景和人物的一致性。
在此之前,用户必须在使用这些功能后手动添加音频。
如今,原生音频的引入让用户能更好地掌控视频的情绪、节奏与叙事基调,这些以往只能通过后期制作实现的能力,现在可以直接在生成阶段完成。
在企业场景中,这种更高层次的控制有望减少独立音频制作流程的需求,提供一种音画同步的集成式创作方式,便于制作培训内容、营销视频或数字体验作品。
02
借助 Veo 3.1,谷歌引入了对多种输入类型的支持,并提供了对生成结果更精细的控制。该模型可接受文本提示、图像以及视频片段作为输入,并进一步支持:
参考图像(最多三张),用于引导最终输出画面中的外观与风格;
首帧与末帧插值,可在固定的起止画面之间生成平滑衔接的过渡场景;
场景延展,可让视频的动作或运动超出原本时长继续发展。
给出第一帧和最后一帧,Veo 将使整个场景栩栩如生,帮助用户创建具有史诗般过渡的无缝视频。
此外,谷歌还引入了如插入(Insert)(向场景中添加物体)和移除(Remove)(删除元素或角色)等新功能,但并非所有功能目前都能通过 Gemini API 即时使用。
03
Veo 3.1 可通过谷歌旗下多项现有 AI 服务访问:
Flow:谷歌自家的 AI 辅助电影创作平台;
Gemini API:面向希望在应用中集成视频生成功能的开发者;
Vertex AI:企业级集成平台,后续将支持 Veo 的「场景延展」等核心功能。
04
Veo 3.1 模型目前处于预览阶段,仅在 Gemini API 的付费层级中可用。其收费结构与上一代 AI 视频模型 Veo 3 保持一致:
标准模型(Standard model):每秒视频 0.40 美元
快速模型(Fast model):每秒视频 0.15 美元
目前尚无免费层级,且仅在视频成功生成后才会计费。这种计费方式与此前的 Veo 系列保持一致,为注重成本管理的企业团队提供了可预测的预算模式。
05
Veo 3.1 支持输出 720p 或 1080p 分辨率的视频,帧率为 24 帧 / 秒(fps)。
在使用文本提示或上传图像生成视频时,时长可选 4 秒、6 秒或 8 秒;
若使用 Extend 功能,视频最长可扩展至 148 秒(超过两分半)。
新功能还带来了对主体与环境的更精确控制。
例如,企业用户可以上传一张产品图片或视觉参考,Veo 3.1 将在整个视频中生成保持其外观特征与风格一致性的场景。
这一能力有助于简化创意生产流程,特别适用于零售、广告以及虚拟内容制作等需要品牌一致性和视觉延续性的团队。
最后,我们看看网友脑洞大开的创意:
转载原创文章请添加微信:founderparker
相关文章
内容转载自「机器之心」正如前几天网上泄露与传闻所预料的那样,深夜,谷歌发布了最新的 AI 视频生成模型 Veo 3.1。较先前版本相比,Veo 3.1...
2025-10-21 0
10月20日消息,据外电报道,Anthropic 或许是人工智能领域最大的公司之一,但它对行业风险的警示却并不陌生。此前,Anthropic 的首席执...
2025-10-21 0
来源:【中国教育报】本报讯(记者 任朝霞)染色质也有“记忆”,如何传承?日前,华东师范大学翁杰敏教授团队与中国科学院生物化学与细胞生物学研究所陈德桂研...
2025-10-21 0
大家都是知道,前段时间我简单的换了一台手机,X70pro差不多用了好长时间,主要不换还是更多原因在于对当前手机外观设计上不是很感兴趣,不过现实我还是换...
2025-10-21 0
《科创板日报》10月15日讯(记者 李佳怡)小米上线“围观短剧”app,短剧市场再添一员。近日,小米在旗下应用商城正式上线独立短剧APP“围观短剧”,...
2025-10-21 0
号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部在企业网络运维中,核心设备巡检 是保障网络稳定运行的重要环节。定期检...
2025-10-21 0
2025年10月18日,首届“百雀羚发现中国美|全国大学生AIGC创意设计大赛”圆满收官,于北京阿里巴巴朝阳科技园举行了盛大的颁奖典礼。本次活动在中国...
2025-10-21 0
10月19日晚上,A股芯片公司士兰微突然发公告,说要和厦门政府、国企一起往子公司注资51亿,建一条12英寸的高端模拟芯片生产线。这条线主要做汽车、服务...
2025-10-21 0
发表评论