首页 抖音热门文章正文

Qwen开源版Banana来了!原生支持ControlNet

抖音热门 2025年09月26日 03:24 0 aa

时令 发自 凹非寺

量子位 | 公众号 QbitAI

Qwen版Banana来了!

刚刚,Qwen推出了新图像编辑模型——Qwen-Image-Edit-2509。

不仅支持多图融合,提供“人物+人物”,“人物+商品”,“人物+场景” 等多种玩法,还增强了人物、商品、文字等单图一致性

Qwen开源版Banana来了!原生支持ControlNet

除此之外,它还原生支持ControlNet,可通过关键点图改变人物姿势,还可轻松实现换装需求。

图像编辑之余,Qwen还开源了端到端全模态模型Qwen3-omni,表现也可圈可点。既可当语音翻译助手,还能立不同的人设,甚至支持方言输出。

下面具体来看。

支持多图输入

新图像编辑的首要更新就是支持了多图输入

先看一个“人物+人物”生成结婚照的例子。

输入两张图片:

Qwen开源版Banana来了!原生支持ControlNet

然后,输入以下提示词:

Qwen开源版Banana来了!原生支持ControlNet

结果闪亮登场:

Qwen开源版Banana来了!原生支持ControlNet

不喜欢中式婚礼的也没事,我们还可以生成西式的,主打一个用户就是上帝。

Qwen开源版Banana来了!原生支持ControlNet

再看“人物+场景”的应用,感觉可轻轻松松实现环球旅行。

Qwen开源版Banana来了!原生支持ControlNet

令我比较惊讶的是,这还真不是简单的图像拼接,它甚至贴合场景改变了主角的神态,闭眼享受阳光的动作、躺椅上的影子,说实话,p图我都p不出来这么细。

下面轮到“人物+物体”了,我把它称为最快拥有奢侈品包包和豪车的方式。

Qwen开源版Banana来了!原生支持ControlNet

此外,多图输入也支持ControlNet常用的关键点图,比如改变人物姿势。

Qwen开源版Banana来了!原生支持ControlNet

还能在改变关键点的同时,进行换装。

Qwen开源版Banana来了!原生支持ControlNet

除此之外,普通证件照、形象照、生活照也是so easy。

Qwen开源版Banana来了!原生支持ControlNet

想要Banana大火的美式精英风?无论是半身还是全身照,你想要的Qwen都有。

Qwen开源版Banana来了!原生支持ControlNet

还能进行不同的姿势编辑,俏皮、比心、举黑板都是不在话下。

Qwen开源版Banana来了!原生支持ControlNet

基于新模型上述图像编辑能力,再加上其本身特色的文字生成能力,团队发现它还很擅长制作表情包。

Qwen开源版Banana来了!原生支持ControlNet

当然,对于更长的文字,新模型也依然可以在保持人物一致性的前提下进行渲染。

Qwen开源版Banana来了!原生支持ControlNet

更有意思的是,它还可以给老照片进行修复,比如给照片上色。

Qwen开源版Banana来了!原生支持ControlNet

还可以修复破损照片。

Qwen开源版Banana来了!原生支持ControlNet

但是,这个美颜……

除了真实人物,生成卡通玩偶、文创也是分分钟的事啦。

Qwen开源版Banana来了!原生支持ControlNet

咦?这左下角不就是Nano Banana爆火的手办吗?Qwen新模型效果看起来也是很不错的。

1个物品太简单了,咱们再换个有14只猫的图片试一下。

Qwen开源版Banana来了!原生支持ControlNet

哇哦,猫的数量是对的,效果也是相当可以。

除了图像方面,新模型还专门增强了文字一致性,支持了包括字体类型编辑、字体颜色编辑和字体材质编辑。

Qwen开源版Banana来了!原生支持ControlNet

此外,它还支持定点文字编辑,细致到可将圈出来的错字进行定点修改。

效果是这样滴:

Qwen开源版Banana来了!原生支持ControlNet

不仅如此,新模型还支持深度图控制,保持物体与场景的一致性。

Qwen开源版Banana来了!原生支持ControlNet

哎呀,这泥泞的道路、茂盛的丛林、真实的车辙印,真的不是户外山地车的广告吗?

只有关键点也不耽误出图,无论男女、无论古代还是现代、无论什么穿着,Qwen都能统统搞定。

Qwen开源版Banana来了!原生支持ControlNet

最后就是根据草图来控制生图,这一老一少真给人一种时光穿梭的感觉,再配个bgm氛围感直接拉满。

Qwen开源版Banana来了!原生支持ControlNet

还有端到端全模态模型

Qwen不仅在图像编辑上表现优异,它还开源了端到端、全模态大模型Qwen3-omni,不仅能够无缝处理文本、音频、图像和视频等多种输入形式,还能边生成文字边实时合成语音。

Qwen开源版Banana来了!原生支持ControlNet

主要特点如下所示:

跨模态的领先性能:在36项音频及音视频基准测试中,Qwen3-omni斩获32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时其图像和文本性能也在同尺寸模型中达到SOTA水平。

Qwen开源版Banana来了!原生支持ControlNet

多语言方面:Qwen3-omni支持119种文本语言、19种语音输入语言和10种语音输出语言。

不仅是实时翻译助手,还能直接总结网页内容,然后用你所需要的语言输出。

更快响应:端到端音频对话延迟低至211ms,视频对话延迟低至507ms。

长音频:支持长达30分钟音频理解。

个性化:支持system prompt随意定制,可以修改回复风格,人设等。

比如广东幼儿园老师或是四川女汉子。

咦,那么问题来了,这些方言是否标准噻?

工具调用:支持function call,实现与外部工具/服务的高效集成。

开源通用音频Captioner:开源Qwen3-Omni-30B-A3B-Captioner,低幻觉且非常详细的通用音频caption模型,填补开源社区空白。

不仅能分析音乐风格,还能推理数学题,甚至还能当起语音助手唤醒其他应用。

这花里胡哨的功能真是令人眼花缭乱,感兴趣的读者赶紧去试试吧。

参考链接:
[1]https://huggingface.co/Qwen/Qwen-Image-Edit-2509
[2]https://qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list
[3]https://github.com/QwenLM/Qwen3-Omni

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap