整理 | 褚杏娟、核子可乐 “看到 Gemini 应用的月活跃用户居然已经达到 6.5 亿,真是有点意外,大概要多谢 Nano Banana 吧。”H...
2025-11-01 0
整理 | 褚杏娟、核子可乐
“看到 Gemini 应用的月活跃用户居然已经达到 6.5 亿,真是有点意外,大概要多谢 Nano Banana 吧。”Hyperbolic Labs 联创兼 CTO Yuchen Ji 在看到在看到谷歌“战报”后说道。
前两天,谷歌 CEO Sundar Pichai 开心地发推称:“我们首次实现单季度营收突破 1000 亿美元,这是公司历史上的第一次,并且我们在业务的每个主要板块都实现了两位数增长。(五年前,我们的季度营收还只有 500 亿美元)”
ChatGPT 目前有 8 亿周活用户。在面向消费者的应用层面上,Google 的追赶速度非常快。尤其前段时间 Nano Banana 爆火,让谷歌在一种模型中“杀”了出来。
根据应用分析公司 Appfigures 的数据,在 Nano Banana 发布期间,Gemini 的下载量飙升,而 Adobe 的生成式 AI 图像与视频应用 Firefly 下载量却明显下滑。虽然目前还无法完全确认两者是否存在直接因果关系,但时间点几乎完全重合
Gemini 应用负责人、谷歌实验室副总裁 Josh Woodward 表示,这款工具的走红带来了意想不到的连锁反应。更重要的是,很多原本只是来玩 Nano Banana 的用户,后来开始用 Gemini 处理其他任务。
“我们看到应用的用户结构发生了很大的变化,”Woodward 在接受外媒采访时表示,这包括 18-34 岁年龄段用户 “大幅增长”,且用户群体此前以男性为主,现在吸引力更多的女性用户。吸引年轻用户对谷歌来说是个好消息,该公司一直担心他们把更多时间花在 TikTok 等社交媒体平台上。
Woodward 还透露,Gemini 的国际用户数量也在快速上升。其实这并不意外,Nano Banana 曾经掀起一波全球热潮:用户用它制作自己的 3D 人偶。“那波热潮最早从泰国开始,”Woodward 说,“一位网红发布了视频,随后就迅速蔓延到越南、印尼,几乎是一夜之间火遍东南亚。”
对于谷歌来说,通过像 Nano Banana 这样的爆款功能吸引用户,是一个聪明的入口。很多人因为好玩而下载 Gemini,但一旦留下来用其他功能,谷歌就赢了。Woodward 也坦言,公司非常关注这种“留存粘性”——用户是否会持续回访、形成使用习惯。据悉,谷歌将月活跃用户定义为在安卓、iOS 系统打开应用,或通过网页使用应用并进行互动操作的用户。不过,该定义会排除非常基础的操作请求,比如用户设置计时器。
最近,谷歌 DeepMind 首席科学家 Oliver Wang、产品经理 Nicole Brichtova 做客 a16z 播客节目,与 a16z 合伙人 Justine Moore、专注人工智能和基础设施投资的 Guido Appenzeller 和 Yoko 一起讨了 Nano Banana 是如何诞生的、为什么它会病毒式传播以及图像和视频编辑的未来。我们翻译了该内容,并在不改变原意基础上进行了删减和整理,以飨读者。
Nano Banana 的缘起
Yoko:能不能先聊聊 Nano Banana 模型背后的故事?它是怎么诞生的?
Oliver Wang:当然可以。我们团队其实一直在做图像模型,之前开发过 Imagine 模型系列,已经好几年了。在 Gemini 2.0 推出图像生成功能之前,Gemini 里其实就已经有过一个图像生成模型。后来团队的重心逐渐转向了 Gemini 相关场景,比如互动、对话、编辑等。于是,我们几个团队合作,把这些能力融合在一起,做出了后来大家熟知的 Nano Banana 模型。
Brichtova:我们的 Imagine 模型一直以视觉质量见长,特别是生成和编辑类任务。Gemini 2.0 Flash 推出后,我们第一次真正感受到“图文同时生成”的魔力,原来可以边讲故事边生成图像,还能用对话的方式修改图片。唯一遗憾的是,当时的画质还没达到理想水准。于是 Nano Banana,也就是后来 Gemini 2.5 Flash Image 的版本,就在这种需求下诞生了。
Yoko:但我得说,Nano Banana 这个名字酷多了!
Brichtova:是啊,也更好念。它其实融合了 Gemini 的智能与多模态互动特性和 Imagine 的高视觉质量优势。我觉得这就是为什么它能让这么多人产生共鸣。
Yoko:那在开发过程中,有没有什么让你们觉得“哇,要火了”的时刻?
Oliver Wang:老实说,直到模型上线到 LMArena 平台前,我都没觉得它会火。当时我们预估的流量只和以前的模型差不多,结果访问量一路暴涨,不停加配额都跟不上。那一刻我才意识到,“哇,原来这么多人真的喜欢用它。”哪怕那个网站只在部分时间才能访问到模型,大家都愿意去尝试。这对我来说是第一个“哇”时刻。
Brichtova:对我来说,“哇”的时刻更早一点。我经常用同样的指令测试不同代际的模型,比如“让我看起来像宇航员”“让我去探险”或者“走红毯”。直到有一次我在内部测试版上跑这些指令时,第一次生成的图像真的像我本人。以前只有做过专门微调(比如 LoRA)才能做到这种效果,还要上传好几张图、训练半天。这次却是零样本直接生成,我当场就震惊了。后来我做了个内部展示,整份演示文档全是我自己的脸。
等更多同事自己试了之后,他们也觉得特别神奇。看别人用会觉得好玩,但把自己或者把家人(孩子、配偶)甚至宠物放进模型后更有代入感,这种情感共鸣就出来了。后来我们内部出现了各种“80 年代风格改造自己”的热潮,那时候我们都意识到:嗯,这东西真的有戏。
Oliver Wang:测试这种模型真的很有趣,因为你能看到别人用它创造出各种惊人的作品,很多是你从来没想到的。
是否形成了职业冲击?
Guido:长远看,我们其实在创造一批能改变视觉艺术的新工具。以前很复杂的 PhotoShop 手动操作,现在只要一行命令就能搞定。那未来艺术创作该怎么教?五年后大学里的艺术课会是什么样的?
Brichtova:我觉得会呈现出多元化的场景。首先在专业领域,我们听到很多创作者说,这些模型能帮他们省去工作中繁琐的部分,让他们把 90% 的时间花在创意上,而不是像以前那样把 90% 的时间用在编辑和手动操作上。我对这一点非常期待,相信这会让创意领域迎来爆发。
对消费者来说,大概能分为两类场景。一类是做些有趣的事,比如给孩子设计万圣节服装,然后分享给家人朋友;另一类是处理实用任务,比如做 PPT。我以前是顾问,那时候要花很多时间把 PPT 做得好看、让故事逻辑清晰,但未来可能只需要告诉 Agent 你的需求,它就能帮你排版 PPT,生成符合内容的视觉元素。
总的来说,我认为这取决于你的需求:是想参与创意过程,并与模型协作调整;还是只想让模型完成任务,自己少参与。
Guido:那在这样的世界里,什么才算是“艺术”?有人说,艺术就是能创造出“分布之外的样本”,你觉得这种定义准确吗?
Oliver Wang:我觉得说分布样本太严格了。很多伟大的艺术,其实是在既有艺术语境之内的延伸。艺术的定义本身就是个哲学问题,对我来说,艺术最关键的是“创作者的意图”。AI 生成只是工具,真正的艺术来自人的选择、人的表达。
我并不担心职业艺术家或专业创作者,因为我发现,如果让我面对这些模型,我根本创作不出任何人想看的东西,但他们总能用最新的工具去创造出有灵魂的作品。
Justine:很多艺术家以前不愿用 AI,是因为觉得它太难控制,比如角色不一致、风格无法复用。你们在训练 Nano Banana 时,是不是特别优化了这些点?
Oliver Wang:对,我们开发过程中特别关注“可定制性”和“角色一致性”,我们尽力做到最好。交互式对话的迭代性也很重要,因为艺术创作本身就是迭代的过程,你会不断修改,看看方向,再继续调整。这个模型在这方面很实用,不过我们还有很大的改进空间,比如现在长对话中,模型遵循指令的效果会变差,这是我们正在改进的重点,我们希望它能更像一个自然的创意伙伴。
Guido:如果跟视觉艺术家聊这个话题,总会收到一些非常怀疑的回应,比如“效果太差了”之类。难道大家意识不到,AI 只是一种新型工具,最终肯定能为艺术家赋能吗?
Oliver Wang:我认为这跟对输出结果的控制程度有关。最早那些文生图模型类似于一次性工具——输入文本就能得到输出,普通用户会觉得“看着还行,而且至少是我自己创作的”。但这种模式可能让创意人士感到不适,因为他们知道绝大多数决策是由模型和训练数据主导的,自己根本没有参与。
确实,这并不能算真正的创作。身为创作者,就应该拥有更大的自我表达自由。所以,我认为随着模型变得更加可控,那么类似“这完全就是计算机在操作”之类的担忧会随之消散。
另外换个角度,我们有段时间对模型生成的图像惊叹不已,看到作品时会由衷赞叹“哇,大模型居然能做到这个水平”,但这种新鲜感很快就过去了。哪怕是当初最让人惊艳的图像,如今大家也能一眼看出“哦,这就是单次提示词搞出来的,作者根本没花多少心思”。新奇之后,创作的门槛再次出现:我们必须想办法用 AI 工具创造出有趣的东西,而这一直很难。我们仍然需要艺术家,只有他们能够更好地做到这一点。我认为艺术家也更善于辨别哪些作品中蕴含着真正的掌控调整与创作意图。
Brichtova:艺术创作需要深厚的技艺积淀与审美品味,而这些往往需要几十年才能形成。我认为这些模型并不具备真正的审美能力,之前提到的那些抵触情绪可能也正源于此。
我们确实会与跨领域艺术家们深度合作——图像、视频、音乐之类,希望与他们携手推进技术边界。许多人充满热情,而他们真正贡献的是几十年设计积淀下的专业知识。我们正与 Ross Lovegrove 合作,基于他的手稿对模型进行精细分析,进而创造出全新作品。我们还设计了实体原型椅来做物理验证。
很多艺术家都渴望将自身积累的专业知识与描述作品的丰富语言融入模型对话,借此突破创作的边界。要知道,这绝非一、两分钟编写的提示词就能做到,需要大量审美积淀、人类创造力与匠心工艺的注入,最终才能升华为艺术。
Oliver Wang:我觉得还存在这样一种现象:大多数创意内容的消费者,甚至包括那些非常关注创意内容的受众,其实并不清楚自己到底喜欢什么。必须由有远见的人创造出新奇独特的作品,这样在展示出去的时候,人们才会惊叹“太棒了”。也就是说,大家更善于欣赏,但却无法独立构思出这些创意载体。
所以在我们优化模型时,虽然会根据大众的平均偏好进行调整,但也意识到这样很难产生有趣的成果。否则最终做出的就是人人都觉得还行,但却没法真正直击人心的作品——那种能够彻底改变大家艺术认知的作品。
Guido:那未来小孩子学画画,会不会是在平板上随便涂几笔,AI 就帮他们变成精美作品?
Brichtova:我倒希望别那样(笑)。我不确定是否需要把孩子的画都变成 “漂亮的图像”,更理想的方式是,AI 像一个伙伴或老师。我自己不会画画,也没天赋,但我希望这些工具能教孩子绘画的步骤、给出修改建议,甚至像图像 “自动补全” 一样,提示他们下一步可以做什么,或者给出几个选项并解释怎么做。我不希望 5 岁孩子的画都变得 “完美”,那样会失去一些重要的东西,比如孩子的创造力和独特视角。
Oliver Wang:有趣的是,我们反而在训练模型画“儿童蜡笔风格”的画时,它很难做到,因为那种抽象程度很高,看似简单,实则困难。
总的来说,我对 AI 在教育领域的应用非常乐观。大多数人其实是“视觉型学习者”,而现在的 AI 教学还局限在文字和语音。但学生不是这样学习的。想象一下,在解释某个概念时,如果它能一边讲原理,一边配图、配动画,那学习效果会提升非常多。这会让知识更有用、更易获取,非常令人期待。
AI 工具,更专业还是更简单?
Yoko:自从你们发布 Nano Banana 后,好多人都在谈“编辑模型”。Oliver,你以前在 Adobe 工作,怎么看模型层和传统软件编辑的演化?
Oliver Wang:Adobe 这类专业工具的特点是有很多控制项、很多 “按钮”,需要很高的控制度。但现在有个平衡问题:我们既希望普通人在手机上用语音就能编辑操,同时也希望专业创作者能进行精细调整。目前我们还没完全解决这个平衡问题,但已经有很多人在开发很棒的 UI 了,有很多实现方式。
Brichtova:我个人希望未来不用学习所有控制按钮的含义,模型能根据你已经做的操作,智能推荐下一步可以做什么,这是一个很值得探索的方向。未来的 UI 可能是不需要你学习以前那么多复杂的操作,工具会根据你的行为主动提示它能做什么。
Guido:专业人士只关心结果,他们愿意接受高复杂度,也有相关的训练和经验,Cursor 界面也不是简单的单文本提示。所以未来是不是会有面向专业用户的超复杂界面,也有面向普通用户的简单界面?
Oliver Wang:我其实挺喜欢 ComfyUI 这种节点式界面,虽然复杂,但功能极强。现在很多人用 Nano Banana 去生成故事分镜、视频关键帧,把不同模型串起来做工作流,效果惊人。我觉得无论是专业用户还是普通用户,这类界面都很棒。就专业用户而言,未来会发展成什么样子还是个未知数。
Brichtova:这取决于目标用户。比如对我父母这类人群来说,聊天界面就很好用,他们只需要上传图片然后说“帮我改改”就可以,不用学新工具。而专业创作者需要强控制力。中间那群想创作但又被专业工具吓退的人,也会有自己的新界面形态,这里面也有很大的机会,有很多需求待满足。
Yoko:未来会是“一家模型打天下”,还是“多个模型协作”?
Oliver Wang:我绝对不认为有任何一个模型能满足所有需求,未来一定会有多样化的模型。比如,我们会优化有些模型的指令遵循能力,确保它完全按用户的要求做,但这类模型可能不适合需要启发灵感的场景,在那种场景下,用户希望模型更 “自由”,能跳出框架给灵感。
多模态能力成为必须
Yoko:你是否认为,未来要成为领先的大语言模型或者视觉艺术形式,必须同时具备图像、语言、音频等多模态能力?
Oliver Wang:百分之百认同,我坚信应该是这样。最让我振奋的 AI 模型未来图景,就是要能够成为帮助人类达成更多目标的工具。试想未来会出现自主运作的模型,它们会彼此对话并完成所有工作,这时候视觉沟通模式的必要性肯定会有所降低。但只要仍有人类参与其中,只要解决任务的动机源自人类,那视觉模态对于未来的一切 AI 智能体还是至关重要,这也是完全合乎逻辑的判断。
Guido:我们终将迎来这样的大模型:提出图像生成需求,它会思考一、两个小时,设计草稿、探索不同方向,最终给出成果。
Brichtova:而且不仅限于单张图像。假设大家在重新设计房屋,又不想参与具体流程,那只需要提供灵感素材,比如“我喜欢这样的风格”,然后像跟设计师沟通那样把素材发给大模型就行。
Guido:这不就是视觉层面的 Deep Research 吗?
Brichtova:没错,这个总结很到位。系统会自动运作,比如搜索适合用户居家环境的家具,然后提供设计方案。毕竟谁愿意花整整一下午挑家具呢?还得提防“照骗”。
Guido:目前围绕世界模型、图像模型乃至整体框架仍存在着诸多争论,能不能给我们点启发,比如简要概括一下你的结论?
Oliver Wang:其实我也不能完全确定,但现实世界确实是 3D 的。如果能建立起具备明确 3D 表示的世界模型,那就有望让所有角色都能保持一致性。当前的主要挑战是,我们不可能随身携带 3D 捕捉设备,因此可用于模型训练的数据大多是投影之后的 2D 图像。而 3D 和 2D 这两种视角,都将成为支撑未来发展的重要前提。
我更倾向于支持投影视角。我觉得如果能直接处理 2D 形式的世界投影,让模型学习潜在的世界表征,那也足够解决大部分问题了。视频模型展现的出色 3D 理解力已经证明了这一点:在对已生成的视频运行重建算法后,其精度可以达到极高水平。纵观人类艺术史,创作最初不也是从投影开始的吗?洞穴壁画就是最好的证明。所有交互界面的本质都是 2D 的,因此人类天生擅长将 3D 世界投影成 2D 平面,这才是最自然的交互与观赏环境。
Yoko:我们有很多办法造成视觉欺骗,把 3D 的画成 2D 的或者把 2D 的画出 3D 效果。但问题在于,如果景深过大,又该如何解决?
Oliver Wang:我倒觉得没关系。以机器人问题为例,我觉得 2D 表示对于宏观规划和可视化同样有很大的帮助。就像人类在导航时,也是在通过记忆中的 2D 投影来实现——大家并不会在脑海中构建 3D 地图。更多的情况还是“看到这栋楼就左转”。所以这类规划使用 2D 完全合理。但实际空间移动时,3D 确实重要,机器人应用也必然没法完全脱离 3D。
Yoko:角色一致性实在是太难实现了,做不好会形成巨大的恐怖谷效应。怎样判断生成的内容是否合格?
Brichtova:观察面部特征。
在实际发布之前,在开发这套模型的过程中,最初就是通过角色一致性测试和人脸识别来做验证的。我们当时还没找到最理想的具体机制,但随着一步步自测,我们很快意识到怎样稳定呈现熟悉的面孔。
我们为此做了大量目测评估,让团队成员们相互测试、也测试自己认识的人,比如 Oliver 肯定认识我,所以能够分辨生成出来的像不像我本人。理想情况下,还应该测试不同年龄段的人群,覆盖更广泛的对象以确保模型具有普适性。
Oliver Wang:没错,这其实涉及更深层的问题——这方面评估极其困难,因为人类感官对于不同细节的关注度其实极不均衡。所以我们真的很难判断模型的角色一致性到底够不够好。哪怕是现在,我也觉得角色一致性还有很大的改进空间。
但在某些应用场景中,我们已经来到了关键节点,一旦角色一致性的质量突破了特定阈值,它就可以赋能更多领域,最终推动技术迎来爆发式增长。随着技术进步,其应用场景也将不断拓展。
Justine:虽然当前的基准测试已经非常强大,但在涉及图像和视觉这类高维度对象时,随着模型性质的持续提升,我们越来越难以依托单一评判标准总结模型优劣。那么你们在模型部署决策和训练过程中如何判断?
Oliver Wang:确实有这种情况。我之所以喜欢做这个方向,就是因为这里没有标准答案。模型中融入了大量——我不知道该叫品味还是偏好性元素,而且不同研究实验室发布的模型往往也体现出了这种偏好和差异。毕竟在权衡两种因素时,很多时候就是得靠研究人员来做出模糊的选择,比如“说不清楚,但我就是觉得这个效果更好”或者“我觉得这项特性对我们更重要”。
“绝对优先的事项清单”
Justine:我猜你们也面临着不小的压力吧,毕竟用户基数有这么大。以谷歌为例,他们的 Gemini 应用面向全世界开放,自然就得比 AI 小厂承受更多指责。很多同类模型只服务专业创作者或者消费级创作者,而你们却选择了一条独特、激动人心但也充满挑战的道路——接受全球用户的检验。那你们是怎么判断大众需求的?
Brichtova:确实,有时候我们不得不做出权衡取舍。我们有一份绝对优先的事项清单,这里的条目必须得到严格保证。
比如,角色生成功能一直表现卓越且拥趸众多,所以我们绝不允许后续模型在这方面有所退化。我们也很重视图像的照片级写实度,比如广告场景中常见的产品和人物呈现,用户就是想要获得照片级别的生成结果。那我们就必须确保能够满足这方面需求。
但有了必须完成的部分,就一定会有被暂时搁置的部分。在这次发布的初版中,模型的文本渲染效果就没能达到预期水平,这也是我们接下来需要改进的方向。但综合考量之后,我们觉得模型已经有多个领域表现优异,那么单此一项不足尚可接受,它已经值得发布,且有望为用户带来充满趣味的探索体验。
Guido:回我们以往经常借助 ControlNet 这类辅助模型,通过提供结构化数据以实现特定效果。而新一代模型在这方面似乎略有退步,也就是在摆脱结构化数据需求,开始直接根据提示词或者参考图像进行生成。长期来看,这种趋势又将如何发展?
Oliver Wang:总会有用户愿意放弃开箱即用的便利,转而追求更强的运行控制权。而我们则努力让模型理解创作者的意图,毕竟艺术家创作的原始渴望就是得到理解。而这些 AI 模型在捕捉用户意图方面可谓是日益精进。如今在输入文本指令后,模型往往就能准确捕捉到用户指定的目标。所以从这个角度看,我觉得我们的模型在理解用户意图方面已经取得了显著进展。
这当然也适用于个性化定制,比如理解大家的创作目标并参考过往操作记录。但只要准确理解了创作意图,通常就能很好地完成相应类型的编辑任务。比如:当前任务到底是需要严格保留结构关系的编辑操作,还是追求自由发挥的创作操作?我认为模型可以发展到这样的程度。当然,一定还会存在极致的追求者,他们希望图像精确到像素级别——比如要求某个元素微微左移或者把蓝色的饱和度调高一点点。那这类用户配合现有工具来做就可以了。
Guido:举个极端点的例子,我可能想让 26 个人用身体拼出全部英文字母,这样的效果我们就还远远实现不了。不过在配合结构化信息之后,也许这个问题将不再难以解决。
Oliver Wang:对于这种需求,哪怕是最终能够实现,也得花费大量时间来做调整和定制。所以暂时就先搁置吧,后续慢慢解决。
Guido:那你觉得未来的 AI 图像表现形式还会有哪些转变?
Oliver Wang:在我看来,一切形式都是像素形式的子集。文字也可以说是像素的子集,对吧?因为我们完全可以把所有文字都渲染成图像。所以单凭像素所能表现的边界在哪里,确实是个有趣的问题。我觉得如果模型响应足够快且能处理多轮交互,那也许会出现更多新的形式。毕竟人们超越像素的主要动机在于可编辑性,比如使用自定义字体、修改文本内容或者通过控制点来调整布局等等。
混合生成模式也许会成为新的热点,就是把像素和 SVG 等多种形式结合起来。但如果多轮交互发展得足够完善,仅凭像素技术也能实现相当程度的突破。
我认为这类原生能力模型最大的亮点就在于,它既能生成代码、又能生成图像。这种交叉领域间蕴藏着无限可能——比如编写的代码既能实现某些元素的栅格化处理,又能保留参数化特性。这样将多种能力整合训练,即可实现高度协同。
Yoko:这观点太棒了。我确实在推文上看到有人尝试用 Claude Sonnet 在 Excel 表格上重现图像——每个单元格对应一个像素点。这无疑是个超级有趣的实验。Sonnet 本质上就是个编程模型,对图像本身并无概念,但居然真的成功了。
Justine:你们在这种问题上是怎么权衡的:是只允许用户通过 Nano Banana 界面编辑生成图像,还是希望更多用户通过 API 调用模型来开发出多样化应用?
Brichtova:我觉得这两方面都有吧。Nano Banana 的妙处在于,它展现了如何把趣味性作为实用性的入口——人们最早会用它为自己制作虚拟形象,但最终留下来却是因为它能帮自己解决数学难题或者做作业,这种从娱乐到功能的过渡模式极具价值。
作为一家公司,我们正积极探索构建新型交互界面。大家可能已经看过 Josh 团队开发的 Flow 工具,它要做的就是重新定义专为 AI 影片制作者服务的创作工具。
对 AI 影片制作者而言,图像迭代是创作流程中的核心环节,毕竟视频制作不易。许多人在创作之初会以帧为单位进行思考,也有人会直接从大语言模型起步,通过对话启发头脑风暴、构思创作方向。所以在这个领域,我们确实有许多探索空间,比如思考特定描述下应该呈现出怎样的视觉效果。我们的优势在于能紧贴模型和接口进行开发,实现紧密耦合。
当然,我们恐怕不会为建筑公司开发软件——虽然我父亲就是建筑师,他应该喜欢的,但这并非我们的创作方向。这就是我说的两方面都有,我们会直接服务开发者群体,也会覆盖企业客户。用户可以运用这些模型为特定受众设计下一代工作流程,帮助他们解决实际问题。我认为两者之间并不冲突。
未来迭代方向
Yoko:你们下一步怎样让更多用户把 Nano Banana 作为一切下游任务的基础模型?
Brichtova:我认为首先要攻克的应该是延迟问题。如果模型只需要 10 秒左右就能生成下一帧,那迭代过程就会变得充满乐趣。但如果每次操作需要等待两分钟,那用户没准直接就跑了。二者的体验截然不同,所以延迟很重要。当然这里也得设置必要的质量门槛,单纯速度快但质量欠佳,那么速度将毫无意义。只有满足质量基准之后,速度才能真正成为效能倍增器。
我认为将信息可视化应用到教育领域,也属于这样的范畴,因为这肯定离不开优质文本和确凿的事实依据,对吧?这类视觉化内容解释素材不仅要美观,更要准确无误。因此我认为这很可能就是下阶段的发展方向——最终形成完全个性化的教科书,不仅文本内容因人而异,视觉内容同样因人而异。
而且还应该具备很强的国际化能力,毕竟现在我们在网上寻找能为自己答疑解惑的内容时,这些素材使用的可能并不是我们的母语。我觉得更灵活的视觉呈现能够成为提升信息可及性的新途径,一方面打破语言的隔阂,另外也能适应很多视觉学习者的思维习惯。
Yoko:那你对图生成视频技术怎么看?我之前看到有人编写脚本持续向 Nano Banana 发出提示词,要求不断生成下一帧画面,最终形成视频。
Oliver Wang:我觉得确实如此,视频跟图像其实紧密相连。另外,在序列预测这类新兴应用场景中,我们发现模型正逐步掌握泛化能力与世界认知。
至于未来发展方向,视频肯定就是最明确的下一步潜力领域。就像在编辑画面时,我们常会猜测:如果这样操作,结果会怎样?视频恰恰具备这种特性,天然拥有依时间序列推进的动作变换。目前我们只能直接操作帧率较低的视频,相信未来一定会发展出能够完全实时交互的视频编辑体验。
Guido:你应该属于百分之零点几的先锋用户了,那除了测试现有模型,你会如何在日常工作中运用这项技术?
Oliver Wang:我也不敢说自己算不算顶尖,但我可以试着聊聊。如之前提到,我一直觉得个性化功能才是真正核心的价值。
我有两个孩子,年纪还很小,我用模型做过的最棒的事情就是跟他们一起创作,比如赋予他们的毛绒玩具生命。这类应用既私密又令人满足。还有不少用户会对多年前的家人合照做修复。影像编辑模型的真正魅力在于,它能让我们聚焦于自己最珍视的事物。就个人而言,它就是给我和孩子们最珍贵的礼物。
Brichtova:现在每次制作演示文稿时,我都会强迫自己生成符合上下文的图像,然后努力完善文字内容。我们还会尝试突破边界,比如能不能在像素空间中制作图表之类。这又是另一个问题了,但真的很有趣,比如生图模型能给出定位精准的柱状图吗?我们团队确实做了很多这类尝试,合作团队成员的创造力也给我留下了深刻印象。他们与我们紧密协作,参与模型开发并不断突破边界,尝试用模型实现各种疯狂创意。
Yoko:那你见过最惊人的案例是什么?
Brichtova:其实有些看似简单的应用也能让人印象深刻,比如纹理转移技术。人们会拿肖像图去做纹理转换,比如“如果换成木质纹理会怎么样”?我完全没想到过这样的应用场景,因为我的脑洞还没那么清奇。但正是这些乐于突破边界的人,才一步步拓展着技术的可能性。
Oliver Wang:对我来说最激动人心,也最令人印象深刻的,就是那些用于测试模型推理能力的应用场景。我们有团队成员发现,可以给模型出几何题,比如要求它求解 x 值、填充缺失信息,或者从不同的视角呈现物体——这些都属于需要依托世界知识才能完成的任务。当前顶尖语言模型在这些问题上恰好做得特别出色,简直神奇。我真的没想到现在的大模型已经到了这个程度。
Yoko:那它能在黑板上生成可编译的代码吗?比如我直接把笔记本屏幕上的代码拍下来,能让它直接处理吗?
Oliver Wang:我还真看到过实例:人们输入 HTML 代码图片,模型就能据此渲染出网页。这真的厉害。我自己是搞学术的,经常需要在论文中的图表身上耗费大量时间。有位同事拍下他们论文中的一张结果图,内容涉及多种方法的应用场景,然后再要求模型处理图片。最终发现只要提供输入数据,模型就能根据论文图表中的方法解决问题,把答案再整理成新的图像,甚至拥有很好的多应用场景处理能力。真的令人惊叹。
Yoko:太酷了。那有没有基于这项能力开发应用程序,具体又有哪些应用场景?
Oliver Wang:我认为存在很多极具潜力的零样本迁移能力,比如问题求解类的应用——至于其上限目前还不确定。这些应用可能相当实用,比如在需要解决某个特定问题时,比如计算场景法线方向或物体旋转角度,完全可以通过提示模型来获得合理的估计值。所以我觉得还有很多很多待解的问题,比如认知类的等等,或者能通过零样本或少样本提示词来解决,只是目前还没找到很好的实现办法。
Yoko:在很多世界模型或者视频模型中,总存在某种状态保持机制。比如换个观察角度,椅子并不会因此消失或者变色,因为真实世界不会这样。你怎么理解这个问题?你觉得图像模型能不能理解这种相关性?你们接下来会不会朝这个方向去做优化?
Oliver Wang:确实,如果考虑具备长时序上下文的图像模型,能够整合文本、图像、音频、视频等多模态信息,那么模型在生成最终图像或视频时,必然需要依据这些上下文进行推理。因此我认为现有模型确实具备处理此类任务的能力,但我还没做过这方面测试。
Yoko:有没有那种你觉得很有搞头,但用户却很少提及的功能?
Oliver Wang:简单来说,我们很意外为什么大家不讨论那种用一条提示词生成多张图像的功能。比如按要求生成类似睡前故事,或者让同一角色贯穿多种不同图像。我猜大家可能还没意识到这项功能的作用,或者是还没想到可以这么用。
Yoko:那接下来几个月或者几年内,你们最希望能攻克的技术挑战是什么?
Oliver Wang:我认为图像质量的提升空间其实很大。很多用户在看到图像时会说“基本完美了,可以收工了吧”。我们也经历过鸡蛋里挑骨头的阶段,因为用户只会展示自己最得意的作品。但现在更重要的是得拉高图像质量的下限——毕竟任何模型都能靠筛选拿出看似完美的图像,可最差图像的表现也很重要。
现在真正的核心问题在于,模型的表现力如何、在特定任务下产出的最差图像质量又是什么水平。我认为通过提升最差图像质量,才能真正拓展模型的应用场景。比如在各类生产力应用场景中,能不能让效果远超已知的提示词创意任务。我们接下来应该会朝这个方向推进,随着模型能够合理完成更多任务,它们的应用场景就会大幅增加。
Yoko:随着下限能力的提升,会催生出哪些新的应用场景?
Oliver Wang:我最关注的还是教育领域的应用验证,之前也提到过了。我每天都想用这些模型进行创意创作,但信息检索、事实检查这类教育学习场景下的硬性需求实在太过麻烦。一旦下限被突破,必将开启无数新的应用方向。
Brichtova:另外我觉得还应该充分运用模型的上下文窗口,尝试直接向这些大语言模型输入海量内容。比如某些企业会撰写长达数百页的品牌规范指南,详细规定操作规程与禁忌事项。这些规范涉及非常具体的细节,比如颜色、字体等等。当生成内容可以完全遵循这些规范,就将实现前所未有的精准控制效果——而当前的技术还无法做到完全合规。我认为这将极大增强与成熟品牌间的信任感。因此我们单独设计了创意合规审查模型,用于自动筛除违规内容。
模型应该能够自主完成这类操作,实现这项功能。比如它应该建立这样的循环:本轮次生成了相关内容,但第 52 页指出此内容不应出现。模型随后回溯重试,稍后带着改进后的方案回来。
Oliver Wang:没错,文本模型已经证明了这种多花时间做深度推理的设计能带来多大帮助。这种让大模型进行自我批判的办法确实至关重要,也真正让图像模型的未来变得令人难以置信且激动人心。
原文链接:
https://www.youtube.com/watch?v=I8VUN141MjU
https://www.businessinsider.com/google-gemini-nano-banana-younger-users-app-exec-2025-10
今日好文推荐
会议预告
12 月 19~20 日,AICon 2025 年度收官站 · 北京见。两天时间,聊最热的 Agent、上下文工程、AI 产品创新等等话题,与头部企业与创新团队的专家深度交流落地经验与思考。2025 年最后一场,不容错过。

相关文章
整理 | 褚杏娟、核子可乐 “看到 Gemini 应用的月活跃用户居然已经达到 6.5 亿,真是有点意外,大概要多谢 Nano Banana 吧。”H...
2025-11-01 0
“一眼看去像是某领域专家,结果发现人物和身份都是AI虚构的。”“宣传图片光鲜亮丽,实景却相差万里,后来才知是AI合成。” 随着AI的广泛应用,AI广...
2025-11-01 0
人类在探索太空的征程中可能无意间携带了地球生命的"偷渡者"。休斯顿大学的最新研究揭示了一个令人不安的发现:某些极端微生物能够通过进入深度休眠状态来躲避...
2025-11-01 0
现在人们打棋牌麻将谁不想赢?手机微乐麻将必赢神器但是手机棋牌麻将是这么好赢的吗?在手机上打棋牌麻将想赢,不仅需要运气,也需要技巧。掌握的棋牌麻将技巧就...
2025-11-01 10
据行业机构奥维睿沃数据显示,2025年前三季度全球TV面板出货量191.7M,同比增长2.7%;出货面积140.9M㎡,同比增长3.8%。其中25Q3...
2025-11-01 0
带孩子适合去哪里旅游 上海、迪士尼、上海自然博物馆陆家嘴、外滩,带孩子寻找童年。最适合孩子去的一个城市应该是云南,要知道云南可是冬暖夏凉,四季如春。昆...
2025-11-01 42
2025年10月29日,陕西移动铜川分公司成功举办“AI+教育”创新赋能大会。铜川市政府相关领导、市县有关部门及全市中小学校负责人等140余人参会,共...
2025-11-01 0
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-11-01 8
发表评论