Nano banana背后的架构创新很有意思。
对比GPT-4o的生图,本质是个“胶水模型”:它把你的需求翻译成长prompt,再扔给DALL-E 3之类的作画引擎去处理,流程是割裂的。
而Nano Banana用的则是真正的原生多模态——文本和图像全当成一样的Token流转,同一个Transformer内部消化所有信息。每一步AI都能理解你说的话,也能看懂你发的图片,能连续进行指令,不用像以前那样每一步都“重开一局”。所以你让它只改袖子的颜色,或者同时换人和换背景,它都能明白上下文到底该怎么调整。
还有一点是团队非常重视的,就是“文本渲染”能力。
Nano Banana团队把“AI能不能写对字、排好logo”当成了模型升级的风向标。
理由很简单:如果AI能把字体、结构这些高难度元素控制到位,说明它对整个图像的空间感、细节感都有了质变。
结果是,模型在文本渲染能力上进步的同时,整体图像的精细度和一致性也跟着飙升。
Nano Banana还内置谷歌的“世界模型”。
不光懂场景、懂风格、懂品牌,还能自动结合你给的图片,把风格和现实环境融合得很自然。你让它做一版广告mockup,甚至做一张带有建筑标注的信息图,AI都能自动分析要点,直接输出给你。这种对“世界知识”的运用,是其他家AI没有的。