← pinyu.ai
Midjourney × Brand Systems

Prompts Don't Build Brands

用 Midjourney 做品牌图,真正拉开差距的,在于能不能把风格一致性沉淀成一套可复用的流程。

核心判断

用 Midjourney 做品牌图,最常卡住的其实都是同一个问题:偶尔能出一张好图,却凑不出一整套风格统一的视觉系统
单张图再好看,也还不是品牌。真正的品牌,是一百张图放在一起,别人仍然一眼认得出“这是你”。

Jamie Ganon 的判断很直接:一致性靠流程,不靠手感。她交付给客户的,也早已从单张作品升级为一套能持续生成同风格素材的系统。
01

先用图说话,再用字说话

品牌视觉的起点,在视觉语言本身

一上来就写 prompt,几乎是所有人的本能反应。但 Midjourney 首先是一个视觉模型:你给它看的东西,往往比你写给它的东西更有力量。

所以第一步别急着打字,先去 Pinterest 或 Cosmos 做一个 mood board,把你想要的“感觉”拼出来。每张图不必精准对应最终成品,关键是它们放在一起之后,能不能形成一种稳定的视觉语言。

Pinterest / Cosmos
mood board
视觉语言
品牌方向

一张图对 LLM 来说,字面意义上等于一千个词。

Claire · How I AI

你可能没有足够的设计词汇,去精确描述自己想要的风格。但没关系。你只需要能指着一张图说:“对,就是这个感觉。”

关键判断
mood board 就是你的视觉词汇表。不会说,不代表不会选。对 Midjourney 来说,会选往往比会写更重要。

02

把 mood board 变成 Style Reference

真正有效的控制,往往来自先删掉干扰源

mood board 可以直接喂给 Midjourney,但它有个问题:如果参考图之间差异太大,模型往往会去“取平均值”。最后出来的结果,既不像 A,也不像 B,只剩下一种模糊的中间态。

Jamie 的经验是,把同一组图改成 Style Reference 的喂法,结果通常会更稳定。SRF 让 Midjourney 去抓的是整体风格,包括色调、对比度、质感、镜头感,以及那种你很难用文字说清的氛围,而不只是某个具体构图。

更重要的是,SRF 让“减法”真正变得可操作。比如参考图里有绿色眼影,输出就开始整体偏绿;参考图里有人吹泡泡糖,模型就会不断模仿那个局部元素。Jamie 的做法很直接:删掉那张图,或者把泡泡糖那一块裁掉,再重新拖回参考区。

低效做法
在 prompt 里不断补 --no green--no bubble gum,试图用文字去压住一个过强的视觉信号。
vs
高效做法
直接删图、裁图、替换参考图,从源头移除那个过强的元素,让模型没有机会继续误读。
原则
当某个视觉元素太强势时,与其用文字去压它,不如直接把它从参考系统里拿掉。先清理源头,通常比和 prompt 对抗更快。

03

用 Personalization Code 注入“你自己的味道”

风格方向确定后,把个人偏好变成可调用的代码

走到这一步,你已经有了品牌方向,但还不一定有“这是你的”那层识别度。Midjourney 的 Personalization Code,就是用来补上这一层的。

方法很简单:系统持续给你看图,你不断点选喜欢的、跳过不喜欢的。做完之后,它会生成一个风格代码,之后你可以在不同任务里反复调用。

Jamie 在做自己的评分时,会刻意偏向那些更现代、更像 iPhone 质感、更高清、也更当代的图。加上这个代码之后,原本“还差一口气”的结果,整体观感会从“AI 生成得还不错”变成“看起来像真实拍摄的品牌素材”。

大量评分
Personalization Code
跨项目调用
稳定偏好沉淀
风险
Personalization Code 也会带来“风格渗透”。如果你在评分时点了太多文艺复兴风格的图,即便你喜欢的只是它们的色彩,生成结果也可能开始往油画方向跑。

所以评分时要清楚自己到底在选什么、为什么选。否则训练出来的,可能只是被系统放大的偏差。


04

用捷径词代替长 prompt

最强的 prompt,往往更像人类世界里现成的风格标签

到了真正写 prompt 的阶段,Jamie 的原则反而是:越短越好。因为很多视觉信息,其实早就被文化语境提前压缩好了。

Publication

杂志名是风格快捷键

Daze editorial photo shoot,高对比、粗粝、街头感这些你可能要用十几个形容词才说得清的东西,一个杂志名就已经打包好了。Vogue 也是一样。

Camera

相机型号是质感快捷键

你不需要记住 aperture 和 ISO。想要 90 年代数码感、胶片感、消费级闪光灯感,直接调用对应的相机型号,通常比堆一串形容词更稳定。

Scene Compression

一个形容词,压缩整段场景设定

Jamie 想要“一只鹿站在纽约高层公寓里”,但不想写一大段场景说明,于是只用了一个词:luxury。训练数据已经替模型把高层、大窗、城市天际线这些元素打包好了。

Prompt Economy

好的 prompt 往往越写越短

真正有效的 prompt 往往更短,因为它依靠最精炼的人类语言,去唤起完整的视觉先验。长 prompt 往往是在弥补前面没搭好的系统。

反直觉结论
如果你已经有了足够好的视觉参考,prompt 更像是在用最短的词,把模型推到正确的先验上;它不需要替你把整个世界描述清楚。

05

最终交付的是 Brand Code,不只是一组图片

把成功结果重新打包,交付一套可复用的配方

这一步是整个流程里最容易被忽略的,也是 Jamie 认为最有价值的部分。生成出一批满意结果之后,她会反过来用这些最终成品再做一个新的 mood board,然后把这个 mood board、对应的 SRF、Personalization Code,以及最终的 prompt 结构,一起整理到 Figma 里交付给客户。

最佳成品
新 mood board
SRF + Code
Prompt Skeleton
Figma Handoff

这意味着客户拿到的,已经从一组能发的图升级成一套知道该如何继续生成的“品牌代码”。以后无论要做新品图、社媒图还是活动图,团队都不必每次从零碰运气,可以沿着同一套视觉系统继续扩展。

旧交付
交一批图,用完再买下一批。价值主要来自反复执行,客户没法延续这套系统。
vs
新交付
交一套可复用的品牌配方。客户可以继续生成,而创作者则把精力放到更高价值的“定义风格”上。
真正升级的地方
这会把你的价值,从“重复执行”提升到“定义视觉空间”。你交出去的是钥匙,不是一次性的成品。

06

把 Nano Banana 当成 AI 版 Photoshop

生成负责大方向,精修负责最后一口气

Midjourney 生成得再好,最后也可能卡在细节上:多一根手指、电脑太旧、质感不够现代、分辨率不够高。Jamie 的做法,是把这类问题转去 Flora 或 Nano Banana 做精修,而不是继续扔回 Midjourney。

在她看来,Nano Banana 就像 Photoshop,只不过是用语言代替鼠标。

Replace the computer she's typing on with a 2026 Midnight Black MacBook Pro. Keep the position and the size of the computer exactly the same. Only the left side and the keyboard is visible.

这类修改不靠漂亮的 prompt,靠的是把编辑目标说得足够具体:改什么、不改什么、位置保持不变、可见区域要限定。对推理型编辑模型来说,这种“用语言做局部修图”的方式,通常比重新生成高效得多。

额外收益
Jamie 还提到,Nano Banana 往往会顺手把图片从 800 × 800 拉到 4000 × 4000。一次编辑,同时完成局部修正和画质升级。

07

卡住时,先走开,然后残酷地诚实

不要把所有失败都归咎于 prompt

Jamie 被问到“当 AI 总是给不出想要的结果怎么办”时,回答很简单:“先走开。”盯太久,眼睛会失准,很容易被自己刚生成出来的东西骗住。

回来之后,先别急着继续撞,先做诊断:到底是哪一层出了问题。是 SRF 里某张图太强势?是 mood board 风格太散?还是 prompt 塞了太多彼此冲突的要求?问题不同,就该回到不同层去修。

  1. 先看参考图:有没有某张图在“绑架”整个输出?如果有,就删掉、裁掉,或者直接换掉。
  2. 再看 mood board:整体方向是不是太散?如果视觉语言本身都不统一,后面所有控制都只是在把混乱放大。
  3. 最后看 prompt:是不是写得太满、太长、太贪心?大多数时候,砍掉大半形容词,比再加一层修饰更有效。
  4. 用品牌视角判断:别问“这张图单独看好不好”,要问“把它放回整个品牌组合里,它像不像从同一个系统里长出来的”。
最重要的心态
对自己的生成结果要足够残酷地诚实。流程能解决“风格统一”,却解决不了“审美品位”。如果你的输入本身没有方向感,工具只会把这种混乱进一步放大。

综合

这套方法真正解决了什么

重点不在出图更快,而在一致性可控

  1. 用 mood board 建立视觉语言,而不是一开始就写 prompt。
  2. 用 Style Reference 注入风格,再用减法去掉干扰元素。
  3. 用 Personalization Code 写入审美偏好,把“你喜欢什么”从临场手感变成可反复调用的系统参数。
  4. 用杂志名、相机型号和高压缩词代替长 prompt,让模型直接落到正确的文化先验上。
  5. 把成功结果重新打包成品牌代码,把交付从“一批图”升级成“一套配方”。
结论

这套工作流最强的地方,在于它把一致性变成了一件可操作、可诊断、可复用的事。但它也有明确边界:流程只能放大你的方向,不能替你建立品位。真正的第零步,仍然是大量地看、存、比、练,先把自己的眼睛练准。