2026 年 3 月 18 日,Midjourney 在 Alpha 网站上放出了 V8。说白了,这次升级主要在两点:快,和高清。
- 生成速度翻了几倍:比 V7 快大概 5 倍。以前画张图得等半天,现在不用了。
- 直接出高清图:不用像以前那样先画小图再放大,直接用
--hd就能要到 2K 的图,省事。 - 画面更听话:加了个
--q4参数,构图没那么容易跑偏了。 - 文字能看懂了:最让我惊讶的是,它现在能看懂引号里的长指令,图里的字也更准了。
为什么还坚持纯扩散模型?
虽然 V8 很强,但它还是死磕纯扩散架构(Pure Diffusion),没跟 Google 或 OpenAI 那样搞混合架构。
- 画质稳:纯扩散模型画出来的光影、风格,那种“味道”还是比混合模型正。
- 脑子不够用:问题是,它不太懂逻辑。你想把图里的人换个位置,或者描述那种复杂的因果关系,它大概率会给你画崩。
算笔账:快是快,钱包在滴血
V8 这种性能提升,代价是成本直接起飞。官方把这笔账转嫁给了我们用户:
| 模式 | 能干嘛 | 代价 |
|---|---|---|
| 标准模式 | 默认设置 | 1x |
高清模式 (--hd) |
直接出 2K 大图 | 4 倍 |
高连贯模式 (--q4) |
画面不乱跑 | 4 倍 |
| 放松模式 | 脑洞大开 | 暂时没得用 |
你看,想出张高清图或者构图严谨的图,就得四倍钱。而且现在连那个能省钱的“放松模式”都没有。
我怎么看 V8?
说实话,V8 的发布挺有意思,但也挺让人纠结的。
- 纯扩散模型终于跑起来了:速度提升 5 倍,这确实让它在商业上更好用了,不用等半天,心情都好很多。
- 但逻辑短板补不上:现在的工作场景,客户经常要改图,要精确控制。纯扩散模型在这方面还是笨手笨脚,Google 和 OpenAI 往混合架构上转,估计也是被逼的。
- 贵,真的贵:V8 这种“要么很贵要么不能用”的策略,可能会把很多中小创作者劝退。对于咱们这种想低成本试错的人来说,门槛太高了。
总的来说,V8 是个里程碑,证明了纯扩散模型也能又快又好。但要想跟 Sora 或者 DALL-E 3 那样既能画得神又听话,还得再熬一熬。
