阿里巴巴統一實驗室Z-Image Turbo上周發布的這款擁有 60 億參數的圖像生成模型,做出了一個簡單的承諾:在你實際擁有的硬件上實現最先進的質量。
這一承諾正在迅速兌現。發布幾天后,開發者們就開始大量開發 LoRA(定制的微調自適應設備),其速度已經超過了 Flux2——Black Forest Labs 備受矚目的 Flux 型號的繼任者,后者廣受歡迎。
Z-Image 的最大優勢在于其高效性。雖然像 Flux2 這樣的競爭對手至少需要 24GB 的顯存(完整版甚至高達 90GB),但 Z-Image 只需 6GB 顯存即可在量化配置下運行。
這相當于 RTX 2060 的性能水平——基本上是 2019 年的硬件。根據分辨率的不同,用戶最快可以在 30 秒內生成圖像。
對于業余愛好者和獨立創作者來說,這是一扇以前緊閉的大門。
人工智能藝術界很快就對這個模型給予了贊揚。
“這才是SD3應該有的樣子,”用戶Saruhey在CivitAI(全球最大的開源AI藝術工具庫)上寫道。“它對提示的響應非常出色……一個能立即處理文本的模型簡直是顛覆性的。它擁有與Flux不相上下甚至更強大的能力,這本身就是魔法。中國人在AI領域遙遙領先。”
Z-Image Turbo 已上市西維泰自上周四發布以來,該游戲已獲得超過 1200 條好評。作為對比,Flux2——比 Z-Image 早幾天發布——已經……157.
該模型完全未經任何審查,從零開始制作。名人、虛構人物,以及露骨內容,統統都在考慮范圍內。
截至目前,僅在 Civitai 上就有大約 200 個與該模型相關的資源(微調、LoRA、工作流程),其中許多資源不適合工作場所觀看。
在Reddit上,用戶Regular-Forever5876用一些血腥的提示測試了該模型的極限,結果驚呆了:“我的天哪!!!這東西對血腥場面的理解簡直絕了!它能完美地生成血腥畫面!”寫道.
Z-Image Turbo 的技術秘訣在于其 S3-DiT 架構——一種單流 Transformer 模型,它從一開始就將文本和圖像數據一起處理,而不是稍后合并。這種緊密集成,結合先進的數據蒸餾技術,使得該模型能夠達到通常需要五倍于其規模的模型才能達到的質量基準。
模型測試
我們對 Z-Image Turbo 進行了多維度的廣泛測試。以下是我們的發現。
速度:SDXL 速度,次世代品質
Z-Image Turbo 采用九步生成圖像,其速度與 SDXL 的通常 30 步生成圖像的速度大致相同——SDXL 是 2023 年推出的一款機型。
區別在于,Z-Image 的輸出質量與 Flux 相當甚至更勝一籌。在一臺配備 RTX 2060 GPU 和 6GB 顯存的筆記本電腦上,處理一張圖像耗時 34 秒。
相比之下,Flux2 生成類似圖像所需的時間大約是原來的十倍。
現實主義:新的標桿
Z-Image Turbo 是目前消費級硬件上最逼真的開源模型。它完全超越了 Flux2,而且其基礎精簡模型的性能也優于 Flux 的各種專門針對真實性進行微調的版本。
皮膚和頭發紋理看起來細致自然。臭名昭著的“Flux下巴”和“塑料皮膚”基本消失了。身體比例勻稱,而且用于進一步增強真實感的LoRA渲染器也已開始流通。
文本生成:終于,有了有效的詞語
這正是 Z-Image 的真正優勢所在。它是最好的開源圖像內文本生成模型,性能與谷歌的 Nanobanana 和 Seedream 不相上下——而這兩款模型正是目前的行業標準。
對于普通話使用者來說,Z-Image 無疑是最佳選擇。它能原生理解中文,并正確渲染字符。
專業提示:一些用戶報告稱,用普通話進行提示實際上有助于模型產生更好的輸出,開發人員甚至發布了一個普通話的“提示增強器”。
英文文本同樣強大,只有一個例外:像“decentralized”這樣不常見的長詞可能會讓它出錯——Nanobanana 也存在同樣的局限性。
空間感知能力和快速響應能力:卓越
Z-Image 的響應速度非常出色。它對風格、空間關系、位置和比例的理解極其精準。
例如,考慮以下提示:一只戴著紅帽子的狗站在一臺電視機上,屏幕上顯示著“Decrypt 是世界上最好的加密貨幣與人工智能媒體網站”。左邊,一位身穿職業套裝的金發女子手里拿著一枚硬幣;右邊,一個機器人站在一個急救箱上,箱子后面是一個綠色的金字塔。整個場景超現實。一只貓倒立在一個白色足球上,就在狗的旁邊。一位美國宇航局的宇航員舉著一塊寫著“Emerge”(現身)的牌子,放在機器人旁邊。
值得注意的是,它只有一個拼寫錯誤,可能是由于語言混合造成的,但除此之外,所有元素都準確地呈現了出來。
畫面溢出現象極少,即使是包含多個主體的復雜場景也能保持清晰度。在這方面,它優于 Flux,并且與 Nanobanana 相比毫不遜色。
接下來會發生什么?
阿里巴巴計劃發布另外兩個版本:用于微調的 Z-Image-Base 和用于基于指令的修改的 Z-Image-Edit。如果它們能像 Turbo 一樣完善,開源格局將會發生翻天覆地的變化。
目前來看,社區的結論很明確:Z-Image 已經取代 Flux 成為行業翹楚,就像 Flux 曾經取代 Stable Diffusion 一樣。
真正的贏家將是能夠吸引最多開發者在其平臺上進行開發的人。
但如果你問我們,是的,Z-Image 是我們目前最喜歡的面向家庭用戶的開源模型。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

