您现在的位置：新闻首页>聚焦 > 谷歌旗下最强图像模型来了

谷歌旗下最强图像模型来了

发布时间：2025-08-27 22:45编辑：admin已有：人阅读

　　2025.08.

　　字数：2664，阅读时长大约4分钟

　　刘晓洁

　　在生成模型称霸多个榜单之后，谷歌终于将战火引至图像领域。当地时间8月26日，谷歌发布了其最新的图像生成和

　　实测后发现，确实如众多网友所体验的那样，模型各方面表现堪称优秀，无论是角色的一致性、提示词的跟随、物理逻辑的真实性还是画面审美方面都保持了水准。但对中国用户的一大限制在于不支持中文输入。即使用户使用英文提示，若生成内容涉及中文，效果仍会显著下降。测试中还发现，模型偶尔会出现多肢体等结构错误。

　　尽管如此，Gemini 2.5 Flash Image仍被广泛认为是当前市场上最强的图像

　　实际上，在正式发布之前，市场已经有一些风声。上周一款名为“nano-banana”的模型出现在大模型竞技场中，开始接受用户的匿名体验和打分，目前投票数超过250万。如今谜底揭晓，“nano-banana”正是Gemini 2.5 Flash Image。

　　在大模型竞技场LMArena的文生图与图像

　　知名AI基准测试机构Artificial Analysis同样获得了早期访问权限，并在过去一周以“rex”的化名在竞技场中进行了测试。目前谷歌的模型在图像Artificial Analysis还做了一个对比测试，给出了一张图，让谷歌、阿里通义和OpenAI三家的模型生成新的照片：在自行车后座上加一名乘客，并将地点更改为内蒙古的草原。

　　从输出结果看，千问的图像模型未能准确进行指令跟随，在画面真实度上，谷歌的模型表现则比GPT-4o更为突出。

　　谷歌称，Gemini 2.5 Flash Image的核心亮点是图像一直以来，图像生成中的一个根本挑战是如何在多个提示和谷歌CEO桑达尔·皮查伊和谷歌DeepMind CEO戴密斯·哈萨比斯在发布时亲自下场带货。

　　皮查伊借助最新模型生成了家里爱犬冲浪、做大厨的照片，画面质感相当不错。哈萨比斯则给自己生成了一个肖像照，将照片背景做了修改，切换为古典风格，但是人物的容貌没有出现改变。

　　从画面来看，谷歌这一模型可做到在不同的姿势、光线和环境中保持人物或角色的相似性，甚至可以将相同的角色应用到新的风格和表面上。

　　现在用户使用Gemini App可以免费体验，但面向开发者的版本，算下来每张生图成本也不到3毛钱。Gemini 2.5 Flash Image的定价为30美元/100万个输出token，每张图像为1290个输出token，每张图像价格约为0.039美元，这远低于OpenAI的0.19美元/张的价格。

　　根据官方的发文，Gemini 2.5 Flash Image除了角色一致性方面，在渲染文本方面也表现出色。模型可以准确生成包含清晰易读且位置合理的文本的，非常适合用于徽标、图表和海报。

　　在商业化场景中，例如广告制作方面，主体特点、主角容貌不变，文字不变形这些都非常重要。在这一基础上，谷歌认为，他们的模型已经能适应产品模型和商业摄影，为电子商务、广告或品牌宣传制作清晰专业的商品照片。

　　具体模型在这些方面的表现如何？基于哈萨比斯的肖像照进行了测试。加上一张家里猫咪的照片，让Gemini融合生成哈萨比斯抱着猫坐在沙发上的图像，并且更换家居服。

　　从第一次输出结果来看基本上找不出瑕疵，AI此前容易犯的错包括手指变形、虚化的背景形态错误、人物容貌细微变化等等都没有发生，甚至连哈萨比斯左手的手表细节都保持了一致。唯一不够满意的是，画面虽然是高清图，但分辨率并不高。

　　接下来，加大难度，让猫坐在沙发上，而哈萨比斯手里拿一本汉语大词典正在翻阅，沙发换成深绿色。

　　可以看到，第二次生成时，模型在涉及中文场景的画面时开始出现错误，哈萨比斯拿着的并不是汉语大词典，甚至很难对应上正确的中文字体，但颜色和形状上保持了合理性。

　　进一步更改提示词，让模型发挥想象力，将猫换成主角，坐在沙发翻阅牛津词典，并让哈萨比斯在旁边给猫按摩。

　　在这一步，模型开始出现明显的错误，指令并没有完全跟随，甚至猫多出了一条腿。不过，确实如官方所说，在英文场景下，文字的渲染没有出现差错，哈萨比斯手中牛津词典的书名拼写完全正确。

　　综上，该模型在面貌一致性、文本准确性方面表现优异，尤其擅长英文环境；而在中文理解与复杂构图指令方面仍存在明显缺陷。

　　在商业应用上，基于模型性能的提升，或许将重塑设计、广告与电商行业。

　　官方表示，模型支持用自然语言进行针对性地变换和精准局部在设计领域，一些图形风格更改也可以一键完成了。谷歌提到，模型现在可以轻松地将其从一张图像转移到另一张图像，同时保留前一个主题的形式和细节，这种一致性可用于专业设计场景。例如，模型能在不改变形状和细节的前提下，完成纹理的更换。

　　在物理知识方面，模型表现也较为出色。根据谷歌的案例，给模型一个气球飘向仙人掌的

　　在电商场景中，已有海外用户尝试用该模型生成商品展示图。如将人物手中的涂抹区域替换为香奈儿手袋，效果逼真，几乎看不出合成痕迹。

　　可以预见，随着生成效果不断优化与使用成本持续降低，Gemini 2.5 Flash Image 有望加速AI在电商、广告、设计乃至专业摄影领域的影响和替代效应，修图师与部分格蕾丝

上一篇：平安上半年新业务价值大增近40%，高管详解权益配置策略

下一篇：45岁的深圳，越来越开放｜湾区观察

已推荐

谷歌旗下最强图像模型来了

图说新闻