新闻 发表于 2025-6-19 16:55

AI | 一文解析GPT4o生图能力

作者:微信文章
https://mmbiz.qpic.cn/sz_mmbiz_jpg/K9thicp0OYzgicT5rW6CRib2wRiagWYict2vqfueJgD9WndKQic82HYkjSbpkxvgLicj0Ah1WHU8iaTOmXmibhOG6bEFxjw/640?wx_fmt=jpeg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1

关注公众号,后台回复数字,免费领取报告:
回复1 获取2025年私域营销日历回复2 获取2025全球消费者趋势回复3 获取2025小红书账号运营攻略回复4 获取2025中国数字营销趋势报告回复5 获取微信视频号超级玩家营销价值研究报告回复6 获取小红书2025营销IP新版图回复7 获取小红书线索营销产品通案回复8 获取小红书种草营销方法论
让喜羊羊穿上西装领带,让懒羊羊成为健身大人......这都是GPT4o的生图功能所形成的,看着很真实对吧,就像是真人画出来的一样。





来点真能用上的——这张残缺的壁画,AI能直接补全细节;



UI设计稿,拖进去就能自动贴到手机样机图上,展示图立马出炉。



这些都是是Open AI最近新出的4o图片生成功能,一句话就能够让AI帮你P图变换风格,生成高质量的漫画。根据手绘草图精准地还原APP界面的原型图。

这么炸裂的效果!设计师朋友们是不是又开始慌了~

这GPT4o有哪些炸裂的玩法?局限性是什么?和Grok、Gemini的生图能力对比如何?和Midjourney、flux对比又如何?到底能不能够替代Comy UI的工作流?

接下来一文给大家梳理清楚~

01

GTP4o的生图能力

脑海里浮现出一个画面,却画不出来?又或者你急需一张特定情景的图片,却怎么都找不到合适的素材?这时候,ChatGPT-4o 就像一支智能画笔,能把你的想法直接变成图像。

它的厉害之处在于几个方面:

能听懂日常语言,不用堆砌专业词汇,用普通话描述场景,它也能准确理解;支持反复微调,生成图不满意?直接继续沟通,让它不断修改直到合心意;风格多变,水彩、3D、卡通、超现实……你能想到的风格它都能试着画;知识储备丰富,连科学原理图、历史背景图这种有内容深度的画面它也能还原得有板有眼。

现在我们就来一个一个看吧~

第一,图像质量,那效果是真逼真。



官方展示的白板照片,OpenAI的logo细节满分,连手写字母、摄影师倒影都还原得一模一样,光影过渡几乎挑不出毛病,就像真机拍的。



人像部分也很稳,脸部角度自然,细节没破绽。



我用相同提示词试了下,GPT-4o跑出的结果和官方样张几乎持平。



但一转头去试了试Grok和Gemini,风格就开始抽象了,有点“这都啥啊”的感觉。



再看Midjourney和Flux,那就更一言难尽。Midjourney还能勉强说得过去,但细节拉垮,logo都糊了,连倒影也没了。Flux直接翻车,一次性整出俩长得一模一样的人。

对比下来,4o在真实感和指令响应这块,确实是降维打击,优势太明显了。



更厉害的是它识别和渲染文字的能力,提示词写啥,它就能画出一模一样的内容,连字母都不差。这一点一对比就高下立现,别的AI在这方面还差得远。

文字都能处理得这么准,做四宫格漫画就变得超简单。



假设做儿童绘本,尤其是英文内容,识别度和排版都很棒。中文也能出图,只是表现上略逊一筹。



不仅能识别文字,GPT-4o还能结合常识和语境生成各种实用图。



比如知识图谱、海报、路牌、菜单、邀请卡、名片、单词卡,甚至旅游路线图,日常用得到的图,它几乎都能搞定。

它还能输出透明背景的PNG素材,方便直接拿去做设计二次加工。

不少人已经用它来生成完整风格统一的游戏素材图,可以直接丢进引擎里用。这也意味着,未来游戏场景图完全可以由AI一手包办。



另外,输出格式也灵活,图像还可以转成SVG矢量图,下下来就能用在各种项目中,灵活又高效。

说到互动体验,GPT-4o的强项就是“改到你满意为止”。你可以不断让它调整细节,一步步优化,不用自己动手改图。



比如官方演示那只三花猫——先戴上侦探帽和单片眼镜,再把它放进游戏场景,加上魔法技能图标,最后放进蒸汽朋克风格的装备界面里。



每一步变化都精准控制,关键是主角始终不变,一致性非常稳,连细节都能逐层精修,简直就是3A大作质感。



我们也实测了个场景:用它画伽利略的自由落体实验图。不光图表准确,还能按要求分别画在教室白板上、笔记本里,还原感很强。

哪怕换场景换风格,也能轻松搞定。一句话就能调整成你想要的样子,复杂需求也不在话下。

GPT-4o还拿手一个功能,就是图像融合。你可以上传多个素材,它能自动把这些元素拼接成一个完整画面,风格还能统一处理。



比如我先让它画了把电锯,再加点文案,就生成了一张广告图。



真人照片也能无缝贴进动漫角色里,风格转变得相当自然。你甚至可以把真人图改成各种漫画风、水彩风,操作轻松,效果不敷衍。



装修党也能用上它,比如想看看几件家具摆进房间后的实际效果,直接把图扔给它就行,渲染图一出,参考性很强。



哪怕是打工人也能用得上,比如把手绘界面草图交给它,它就能自动还原出高质量的APP原型图,省时又省力。

说实话,GPT-4o在图像真实性、指令响应和多轮调整这几方面,确实是强得离谱。

无论是细节还原还是指令理解,都比Grok、Gemini之类稳太多,连Midjourney在“听懂人话”这块也没它准。

门槛低、操作简单,GPT-4o你值得拥有。

不过也不是全能的。比如把真人照片丢进去,结果可能跟本人八竿子打不着。



这是目前当红男星的一张照片,我把它交给了GPT,让他生成了一张不改变其他风格,只让他的表情更加惊讶的图片,结果却一点也不像。

所以想做高质量人像、保持多角度一致性,还是得用专门的模型,比如Lora。

再说它对人像处理还有内容审核的限制,精细化调表情这些活儿,它目前还没法细致到位,只能靠本地部署的模型来玩。

那问题来了,这么强的GPT-4o,到底怎么用最爽?它有哪些高效又实用的玩法?

说它是万能修图王一点不过分——模糊图变高清、半身照拉成全身、自动去背景、删除多余元素、翻转角度、换装补光,这些传统P图操作,现在只需要一句话就能搞定。



风格迁移也一样简单。想要漫画质感?没问题。需要生成写实场景?也能满足。平面设计能转3D,手绘草稿能还原成APP界面,图像风格怎么换都行,指令一发即出图。



它在图文混排这块同样出彩。从图谱、流程图到信息可视化,甚至论文配图,它都能帮你一键生成。有网友直接把整篇论文交给GPT-4o,结果图就自动画好了,效率高到吓人。



图像分类、目标分割、深度感知、遥感识别、医学图像处理……这些曾经属于技术圈的操作,现在都能轻松实现。AI绘图早已不只是“画画玩具”,而是真正上岗的生产力工具。



拿电商来说,直接上传产品照片,一句话就能生成场景图、上身图、家居实拍图,甚至软装搭配、促销物料都能自动搞定,简直是视觉内容一条龙解决方案。



连视频行业也在用——分镜脚本、风格统一的画面,统统可以用AI绘出来,画面感和连贯性都在线,效率直接起飞。

玩法还有很多,想怎么玩就怎么玩。

02

GPT4o生图原理

那他是如何做到的呢?我们来一起了解以下~

OpenAI目前还没公开GPT-4o的图像生成底层细节,但确认使用的是类似语言模型的自回归结构。



和DALL·E那种基于扩散的方式不同,GPT-4o是逐步生成图像的——通过前一个像素或图块,一步步推演出下一个。这样的机制让它在理解和执行指令上更精确,连照片级别的图像编辑也能搞得有模有样。



虽然官方没给出更多细节,但挡不住技术圈的火力侦查。最近,香港中文大学的博士生Jie Liu就扒出了GPT-4o在前端图像生成上的独特玩法——它极有可能是原生的自回归式生成模型,而且还有办法实现手动改图。



巧的是,CMU的博士生Sangyun Lee也给出了自己的推测。他认为GPT-4o在生成图像时,可能先产出视觉token,然后再通过一种扩散式解码器,把这些token转成最终的图像。

这个过程不太像传统扩散模型,更接近一种叫“Rolling Diffusion”的分组解码方式,解码顺序是从上往下推进的,结构更像一行行拼图般地还原整幅画面。



DeepMind的研究员Jon Barron也提出了自己的看法。他猜测GPT-4o的图像生成过程可能是自回归与多尺度机制的融合体。具体来说,很可能是先由一个自回归Transformer生成潜在的“先验代码”,再由扩散式解码器将其还原成完整图像。

这种组合模型也解释了为什么有时AI会先产出一个模糊的轮廓,再逐步补全细节,正如OpenAI所描述的那种“图像逐层清晰”的效果。

港中文博士生Jie Liu在分析GPT-4o前端机制时有了一个大胆发现——用户看到的那种“逐行生成”的动态,其实只是浏览器端的一种动画效果,是纯前端层面的呈现手法。



实际图像生成过程完全不同。OpenAI的服务器在生成阶段只传回5张中间结果图,这些图像是按阶段捕获的,Patch大小为8。而且用户甚至能通过调整前端的模糊高度,来改变图像中哪些区域显示得更清晰。



Jie还发现,这些图像放大后能清楚看到一块块像素分区——每块是8×8像素,整张图为1024×1024,划分出了128×128的网格。虽然整个流程依然遵循自回归逻辑,但我们从前端看到的效果,与实际生成过程有很大出入,差别相当明显。

打开浏览器的 Network 面板,就能看到每次图像生成时,OpenAI服务器其实只返回了5张图,不论换多少种提示词,都是一样的流程。

更有意思的是,从这些中间图像来看,色块之间的过渡区域非常干净,没有扩散模型常见的那种噪点或强烈模糊感。这也让人不禁联想到:GPT-4o是不是完全依靠自回归机制在生成图像?

这个猜测也和OpenAI模型卡里的描述不谋而合——它们称GPT-4o为“原生自回归”模型。就连CMU博士Sangyun Lee也提出了类似的观点,可见这一判断在学术圈已有不少共识。

他之所以有这样的判断,背后有两个关键依据。

一方面,在有明显条件输入(比如视觉token)时,模型初步生成的图常呈现模糊草图风格,也就是我们看到的那种“粗略轮廓”感。这或许能解释待生成区域为什么会先呈现出结构但细节不足。



另一方面,图像显示顺序是自上而下的,这点也很关键。Sangyun Lee曾尝试过反方向——从下往上生成,并用 E(在这类模型中近似等于xt)进行可视化,得出的图像和现在看到的呈现方式非常接近。



那为什么不用传统扩散模型?答案在于性能表现。在进行分组解码时,如果使用更高的 NFE(噪声函数评估次数),FID 分数(图像质量指标)会有所提升。起初他以为这是 bug,现在看来反倒像是“被隐藏的优点”。



更巧妙的是:只要将 num_groups 设置为 num_pixels,这个模型就可以被还原为纯自回归模式。这也说明,GPT-4o的机制很可能就是一种融合了两种技术路径的混合方案。

不少人在讨论中提出,自回归这里指的可能是对视觉 token 的逐步生成。但解码出来的图像为什么还有“氛围感”,而且整体看上去依然流畅自然?这可能和 OpenAI采用了一种融合顺序和非顺序 VAE 编码方式有关。

简单来说,这套系统可能用了两种编码策略:一种是遵循因果关系的 VAE,会按顺序给图像每个 patch 编码;另一种则不依赖顺序。两者结合后,既保留了结构逻辑,又让画面整体更具氛围感。

至于那种朦胧感的由来,有观点认为是因为在扩散采样的早期阶段(t值较高时),E 的输出本身就会呈现出那种模糊、未完成的状态。

选择这种混合机制,可能正是为了与现有多模态架构无缝集成,降低改动成本。而传统的纯扩散方法,对系统架构的冲击会大得多。

当然,这一切目前还只是推测。真正的底层原理,还得等OpenAI自己揭开谜底。

03

GPT4o生图提示词

当然,原理还是很复杂,大家阅读阅读即可,我们最终还是需要使用,所以给大家列出一些相关的提示词,仅供参考~

微型立体场景

Prompt:微型立体场景呈现,运用移轴摄影的技法,呈现出 Q 版「xxxxxx」场景。

云彩形态捕捉

Prompt:一张照片捕捉到白天的景象,天空中零散的云朵形成了一个[主体/物体]的形状,位于一个[地点]上方。

毛绒立体 emoji

Prompt:将一个简单平面的矢量图标 [想生成的 emoji] 转化为柔软、立体、毛茸茸的可爱物体。整体造型被浓密的毛发完全覆盖,毛发质感极其真实,带有柔和的阴影。物体居中悬浮于干净的浅灰色背景中,轻盈漂浮。整体风格超现实,富有触感和现代感,带来舒适和俏皮的视觉感受。采用摄影棚级灯光,高分辨率渲染,比例为 1:1。

充气玩具 emoji

Prompt:将一个简单平面的矢量图标 [想生成的 emoji] 转化为柔软、立体、毛茸茸的可爱物体。整体造型被浓密的毛发完全覆盖,毛发质感极其真实,带有柔和的阴影。物体居中悬浮于干净的浅灰色背景中,轻盈漂浮。整体风格超现实,富有触感和现代感,带来舒适和俏皮的视觉感受。采用摄影棚级灯光,高分辨率渲染,比例为 1:1。

随拍 iPhone 自拍

Prompt:请画一张极其平凡无奇的 iPhone 自拍照,没有明确的主体或构图感,就像是随手一拍的快照。照片略带运动模糊,阳光或店内灯光不均导致轻微曝光过度。角度尴尬、构图混乱,整体呈现出一种刻意的平庸感,就像是从口袋里拿手机时不小心拍到的一张自拍。主角是「人物」,晚上,旁边是「地方」。

角色传送门场景

Prompt:照片中的角色的3D Q版形象穿过传送门,牵着观众的手,在将观众拉向前时动态地回头一看。传送门外的背景是观众的现实世界,一个典型的程序员的书房,有书桌,显示器和笔记本电脑,传送门内是角色所处的3D Q版世界,细节可以参考照片,整体呈蓝色调,和现实世界形成鲜明对比。传送门散发着神秘的蓝色和紫色色调,是两个世界之间的完美椭圆形框架处在画面中间。从第三人称视角拍摄的摄像机角度,显示观看者的手被拉入角色世界。3:2 的宽高比。

气球造型艺术

Prompt:变成玩偶形状的氦气球

职业 OOTD 系列

Prompt:为图片人物生成不同职业风的OOTD,时尚穿搭和配饰,和人物色系一致的纯色背景,Q版,3D,c4d渲染,保持人脸特征,姿势都要保持一致,人物的比例腿很修长构图:4:3 竖幅,顶部文字:OOTD,左侧为人物 ootd Q版形象,右侧为穿搭的单件展示。

立体相框

Prompt:将场景中的角色转化为 3D Q 版风格,放在一张拍立得照片上,相纸被一只手拿着,照片中的角色正从拍立得照片中走出,呈现出突破二维相片边框、进入二维现实空间的视觉效果。

国风墙壁图

Prompt:街头高大中式城墙壁画上画着一个国风美女穿着蓝色汉服,戴耳坠,长头发,头上带了发簪,一只手伸出刚好接住掉落花瓣,围墙外面长着一棵高大茂盛的大树,整棵大树长满蓝色花朵,树冠长到围墙上并向下垂,下垂花朵刚好遮住女人头发,女人头发部分由大量茂盛的花朵构成,花朵密集,密密麻麻,层层叠叠花枝伸展开来,花朵包裹着女人的头顶。花朵从墙顶倾泻而下,仿佛给女人戴上了一顶绚丽的花帽子。背景蓝天白云,地面是沥青路,路上铺满了掉落的蓝色花瓣,路上有行人走过超高清画质,细节逼真,高清摄影,画面真实

游戏角色现实场景

Prompt:超写实的 3D 渲染画面,角色设计为:xxx,完全依照原版建模。场景设定:xxx.

照片转 3D Q版

Prompt:将场景中的角色转化为3D Q版风格,同时保持原本的场景布置和服装造型不变。

体素风格图标

生成步骤:用作者的图作为参考;上传照片/描述物体/用 emoji;将图片/描述转换为参考图一样的体素 3D 图标,Octane 渲染,8k

低多边形几何渲染

Prompt:一个 [想生成的对象] 的低多边形 3D 渲染图,由干净的三角形面构成,具有平坦的 [想生成的颜色] 和 [想生成的颜色] 表面。环境是一个风格化的数字沙漠,具有极简的几何形状和环境光遮蔽效果。

屏幕穿越效果

Prompt:这是一幅「Trompe l'oeil」(障眼法)错觉画面,画中 A(主角)穿着(服饰),仿佛从一个巨大的屏幕中走出来。屏幕上展示的是 xyz 社交媒体界面,用户名为「@」,显示有 1K 点赞和 12 到 20 条评论,周围还漂浮着爱心眼和笑脸等表情符号。背景可以根据你的喜好进行设置。

吉卜力风格转换

Prompt:将图片改为吉卜力风格。

四格主题漫画

Prompt:make a colorful page of manga describing the theory of relativity. add some humor.

时尚杂志封面

Prompt:一位美丽的女子身穿粉色旗袍,头戴精致的花饰,秀发中点缀着色彩缤纷的花朵,颈间装饰着优雅的白色蕾丝领子。她的一只手轻托着几只大型蝴蝶。整体拍摄风格呈现高清细节质感,类似时尚杂志封面设计,照片上方中央位置标有文字「FASHION DESIGN」。画面背景采用简约的纯浅灰色,以突出人物主体。

个性化3D房间设计

Prompt:根据我过去的所有信息,为我生成我的房间设计,包括【床、书架、沙发、绿植、电脑桌、电脑】,墙上挂着【xxx】,窗外是【城市夜景】。可爱3d风格,c4d渲染,轴测图。

小红书封面

Prompt:画一个小红书封面。

要求:有足够的吸引力吸引用户点击;字体醒目,选择有个性的字体;文字大小按重要度分级,体现文案的逻辑结构;标题是普通文字的至少2倍;文字段落之间留白。只对要强调的文字用醒目色吸引用户注意;背景使用吸引眼球的图案(包括不限于纸张,记事本,微信聊天窗口,选择一种)使用合适的图标或图片增加视觉层次,但要减少干扰。

文案:xxx

END

想要在小红书平台上迅速发展吗?想要让你的账号迅速吸引关注,成为热门话题的制造者吗?今天,我们为你带来一份全方位运营宝典——《小红书个人账号从0—1全过程手册》!

这本手册将带你深入了解以下内容:小红书平台的运作机制、账号定位、内容制作技巧、运营策略、数据分析、多种变现途径等内容。

不论你是初学者还是资深运营者,《小红书个人账号从0—1全过程手册》都将对你有所启发。资料一共80页,4万字,详细目录见下文。







https://mmbiz.qpic.cn/sz_mmbiz_png/K9thicp0OYzhJ0akqibBERTetuSyfics5Loq3a3tLMgJRtsd6hsLSqshugp5mlVNxzzekJLoCAJ6rqhc3zkn6Be8w/640?wx_fmt=png&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&retryload=1&tp=webp

https://mmbiz.qpic.cn/sz_mmbiz_png/K9thicp0OYzhJ0akqibBERTetuSyfics5LoNxGqp0wtvbB45SNBpgMjzg5ahyPJY0WD1uwolcBEXSDG9DJ0eY0v6Q/640?wx_fmt=png&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&retryload=1&tp=webp

https://mmbiz.qpic.cn/sz_mmbiz_png/K9thicp0OYzhJ0akqibBERTetuSyfics5LoUAhsugmR34oqbztadN4KHm0pfA26ynR6ThKYgR0zpERPOYDHLJcPvg/640?wx_fmt=png&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&retryload=1&tp=webp

https://mmbiz.qpic.cn/sz_mmbiz_png/K9thicp0OYzhJ0akqibBERTetuSyfics5Lo3lVPxZl39n6N4ibh6R25jSTfwVNK73NCfI2e6oL8iaeic9yTTmicFXtPSA/640?wx_fmt=png&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&retryload=1&tp=webp



左右滑动,查看更多



获取完整版资料,扫描下方二维码⬇️,该资料为付费资料,需付9.9元。制作不易,请理解。

https://mmbiz.qpic.cn/sz_mmbiz_jpg/K9thicp0OYzhtyqaVWnKn4ia6uPYt4niaf6DmgpBzLLGeDF0E3gD9Y5SDfEz4Libw431827fanQsekGicslYWhiasZBQ/640?wx_fmt=jpeg&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp



https://mmbiz.qpic.cn/sz_mmbiz_png/K9thicp0OYziaTGwtS9SY4qbvvyQfic1ugCgT67SennO2VsKWzMVe524tfuhdRrBcUQHscRXapuaOS3RkSgHStwFg/640?wx_fmt=png&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp
精彩推荐

【运营方法合集】【运营工具合集】
【研究成果合集】【AI运营合集】
【资料获取合集】
https://mmbiz.qpic.cn/sz_mmbiz_jpg/K9thicp0OYzgJgYHC40jVXibXObJ9INt5yyuP0TciaVDQtSoiaoicOpNQia9lpzjOCdCpyFiaGnL83Vp9PF2kQvk0vuRQ/640?wx_fmt=jpeg&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp

https://mmbiz.qpic.cn/sz_mmbiz_jpg/K9thicp0OYzhtyqaVWnKn4ia6uPYt4niaf6w1QaZhy3JntefHW0QPAbibbc8Llc8eHl41icamoEtM7HKjf9sOEclyEw/640?wx_fmt=jpeg&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp

页: [1]
查看完整版本: AI | 一文解析GPT4o生图能力