Midjourney × Brand Systems

Prompts Don't Build Brands

用 Midjourney 做品牌图，真正拉开差距的，在于能不能把风格一致性沉淀成一套可复用的流程。

基于 How I AI Podcast 对 Jamie Ganon 的访谈整理 · 2026.03

核心判断

用 Midjourney 做品牌图，最常卡住的其实都是同一个问题：偶尔能出一张好图，却凑不出一整套风格统一的视觉系统。
单张图再好看，也还不是品牌。真正的品牌，是一百张图放在一起，别人仍然一眼认得出“这是你”。

Jamie Ganon 的判断很直接：一致性靠流程，不靠手感。她交付给客户的，也早已从单张作品升级为一套能持续生成同风格素材的系统。

先用图说话，再用字说话

品牌视觉的起点，在视觉语言本身

一上来就写 prompt，几乎是所有人的本能反应。但 Midjourney 首先是一个视觉模型：你给它看的东西，往往比你写给它的东西更有力量。

所以第一步别急着打字，先去 Pinterest 或 Cosmos 做一个 mood board，把你想要的“感觉”拼出来。每张图不必精准对应最终成品，关键是它们放在一起之后，能不能形成一种稳定的视觉语言。

Pinterest / Cosmos

mood board

视觉语言

品牌方向

一张图对 LLM 来说，字面意义上等于一千个词。

Claire · How I AI

你可能没有足够的设计词汇，去精确描述自己想要的风格。但没关系。你只需要能指着一张图说：“对，就是这个感觉。”

关键判断

mood board 就是你的视觉词汇表。不会说，不代表不会选。对 Midjourney 来说，会选往往比会写更重要。

把 mood board 变成 Style Reference

真正有效的控制，往往来自先删掉干扰源

mood board 可以直接喂给 Midjourney，但它有个问题：如果参考图之间差异太大，模型往往会去“取平均值”。最后出来的结果，既不像 A，也不像 B，只剩下一种模糊的中间态。

Jamie 的经验是，把同一组图改成 Style Reference 的喂法，结果通常会更稳定。SRF 让 Midjourney 去抓的是整体风格，包括色调、对比度、质感、镜头感，以及那种你很难用文字说清的氛围，而不只是某个具体构图。

更重要的是，SRF 让“减法”真正变得可操作。比如参考图里有绿色眼影，输出就开始整体偏绿；参考图里有人吹泡泡糖，模型就会不断模仿那个局部元素。Jamie 的做法很直接：删掉那张图，或者把泡泡糖那一块裁掉，再重新拖回参考区。

低效做法

在 prompt 里不断补 --no green、--no bubble gum，试图用文字去压住一个过强的视觉信号。

高效做法

直接删图、裁图、替换参考图，从源头移除那个过强的元素，让模型没有机会继续误读。

原则

当某个视觉元素太强势时，与其用文字去压它，不如直接把它从参考系统里拿掉。先清理源头，通常比和 prompt 对抗更快。

用 Personalization Code 注入“你自己的味道”

风格方向确定后，把个人偏好变成可调用的代码

走到这一步，你已经有了品牌方向，但还不一定有“这是你的”那层识别度。Midjourney 的 Personalization Code，就是用来补上这一层的。

方法很简单：系统持续给你看图，你不断点选喜欢的、跳过不喜欢的。做完之后，它会生成一个风格代码，之后你可以在不同任务里反复调用。

Jamie 在做自己的评分时，会刻意偏向那些更现代、更像 iPhone 质感、更高清、也更当代的图。加上这个代码之后，原本“还差一口气”的结果，整体观感会从“AI 生成得还不错”变成“看起来像真实拍摄的品牌素材”。

大量评分

Personalization Code

跨项目调用

稳定偏好沉淀

风险

Personalization Code 也会带来“风格渗透”。如果你在评分时点了太多文艺复兴风格的图，即便你喜欢的只是它们的色彩，生成结果也可能开始往油画方向跑。

所以评分时要清楚自己到底在选什么、为什么选。否则训练出来的，可能只是被系统放大的偏差。

用捷径词代替长 prompt

最强的 prompt，往往更像人类世界里现成的风格标签

到了真正写 prompt 的阶段，Jamie 的原则反而是：越短越好。因为很多视觉信息，其实早就被文化语境提前压缩好了。

Publication

杂志名是风格快捷键

写 Daze editorial photo shoot，高对比、粗粝、街头感这些你可能要用十几个形容词才说得清的东西，一个杂志名就已经打包好了。Vogue 也是一样。

Camera

相机型号是质感快捷键

你不需要记住 aperture 和 ISO。想要 90 年代数码感、胶片感、消费级闪光灯感，直接调用对应的相机型号，通常比堆一串形容词更稳定。

Scene Compression

一个形容词，压缩整段场景设定

Jamie 想要“一只鹿站在纽约高层公寓里”，但不想写一大段场景说明，于是只用了一个词：luxury。训练数据已经替模型把高层、大窗、城市天际线这些元素打包好了。

Prompt Economy

好的 prompt 往往越写越短

真正有效的 prompt 往往更短，因为它依靠最精炼的人类语言，去唤起完整的视觉先验。长 prompt 往往是在弥补前面没搭好的系统。

反直觉结论

如果你已经有了足够好的视觉参考，prompt 更像是在用最短的词，把模型推到正确的先验上；它不需要替你把整个世界描述清楚。

最终交付的是 Brand Code，不只是一组图片

把成功结果重新打包，交付一套可复用的配方

这一步是整个流程里最容易被忽略的，也是 Jamie 认为最有价值的部分。生成出一批满意结果之后，她会反过来用这些最终成品再做一个新的 mood board，然后把这个 mood board、对应的 SRF、Personalization Code，以及最终的 prompt 结构，一起整理到 Figma 里交付给客户。

最佳成品

新 mood board

SRF + Code

Prompt Skeleton

Figma Handoff

这意味着客户拿到的，已经从一组能发的图升级成一套知道该如何继续生成的“品牌代码”。以后无论要做新品图、社媒图还是活动图，团队都不必每次从零碰运气，可以沿着同一套视觉系统继续扩展。

旧交付

交一批图，用完再买下一批。价值主要来自反复执行，客户没法延续这套系统。

新交付

交一套可复用的品牌配方。客户可以继续生成，而创作者则把精力放到更高价值的“定义风格”上。

真正升级的地方

这会把你的价值，从“重复执行”提升到“定义视觉空间”。你交出去的是钥匙，不是一次性的成品。

把 Nano Banana 当成 AI 版 Photoshop

生成负责大方向，精修负责最后一口气

Midjourney 生成得再好，最后也可能卡在细节上：多一根手指、电脑太旧、质感不够现代、分辨率不够高。Jamie 的做法，是把这类问题转去 Flora 或 Nano Banana 做精修，而不是继续扔回 Midjourney。

在她看来，Nano Banana 就像 Photoshop，只不过是用语言代替鼠标。

Replace the computer she's typing on with a 2026 Midnight Black MacBook Pro. Keep the position and the size of the computer exactly the same. Only the left side and the keyboard is visible.

这类修改不靠漂亮的 prompt，靠的是把编辑目标说得足够具体：改什么、不改什么、位置保持不变、可见区域要限定。对推理型编辑模型来说，这种“用语言做局部修图”的方式，通常比重新生成高效得多。

额外收益

Jamie 还提到，Nano Banana 往往会顺手把图片从 800 × 800 拉到 4000 × 4000。一次编辑，同时完成局部修正和画质升级。

卡住时，先走开，然后残酷地诚实

不要把所有失败都归咎于 prompt

Jamie 被问到“当 AI 总是给不出想要的结果怎么办”时，回答很简单：“先走开。”盯太久，眼睛会失准，很容易被自己刚生成出来的东西骗住。

回来之后，先别急着继续撞，先做诊断：到底是哪一层出了问题。是 SRF 里某张图太强势？是 mood board 风格太散？还是 prompt 塞了太多彼此冲突的要求？问题不同，就该回到不同层去修。

先看参考图：有没有某张图在“绑架”整个输出？如果有，就删掉、裁掉，或者直接换掉。
再看 mood board：整体方向是不是太散？如果视觉语言本身都不统一，后面所有控制都只是在把混乱放大。
最后看 prompt：是不是写得太满、太长、太贪心？大多数时候，砍掉大半形容词，比再加一层修饰更有效。
用品牌视角判断：别问“这张图单独看好不好”，要问“把它放回整个品牌组合里，它像不像从同一个系统里长出来的”。

最重要的心态

对自己的生成结果要足够残酷地诚实。流程能解决“风格统一”，却解决不了“审美品位”。如果你的输入本身没有方向感，工具只会把这种混乱进一步放大。

综合

这套方法真正解决了什么

重点不在出图更快，而在一致性可控

用 mood board 建立视觉语言，而不是一开始就写 prompt。
用 Style Reference 注入风格，再用减法去掉干扰元素。
用 Personalization Code 写入审美偏好，把“你喜欢什么”从临场手感变成可反复调用的系统参数。
用杂志名、相机型号和高压缩词代替长 prompt，让模型直接落到正确的文化先验上。
把成功结果重新打包成品牌代码，把交付从“一批图”升级成“一套配方”。

结论

这套工作流最强的地方，在于它把一致性变成了一件可操作、可诊断、可复用的事。但它也有明确边界：流程只能放大你的方向，不能替你建立品位。真正的第零步，仍然是大量地看、存、比、练，先把自己的眼睛练准。