穩定AI或許正在展開它自己的救贖之旅。在SD3 Medium令人失望之後,他們推出了兩款於七月承諾推出的新模型:Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo。
「在六月,我們發佈了Stable Diffusion 3 Medium,這是Stable Diffusion 3系列的首個開放發布。這個版本並沒有完全達到我們的標準,也未能滿足我們的社區期望,」穩定AI在一篇官方博客文章中表示。「在聆聽到寶貴的社區反饋後,我們並未急於求成,而是花時間進一步開發一個能推動我們改變視覺媒體的版本。」
在我們匆匆測試這些新模型之前,我們生成了一些圖像,結果非常好。特別是對於一個基礎模型來說。
SD 3.5系列旨在運行於消費級系統,甚至根據某些標準來看,也適用於低端系統,使先進的圖像生成比以往更加易於使用。是的,他們聽到了關於上一個版本的抱怨,所以這一次承諾會更好,以至於他們的推廣圖像是一名女子躺在草地上,這是對之前在同一挑戰中出現的恐怖場景的調侃。
另一個這次發布的重要方面是新的許可模型。Stable Diffusion 3.5使用更寬鬆的許可證,允許商業和非商業用途。小型企業和從該工具獲得的收入低於100萬美元的人可以免費使用這些模型並在其上進行擴展。
收入較高的用戶必須聯繫穩定AI進行費用談判。相比之下,Black Forest Labs提供其低端模型Flux Schnell免費,其中端模型Flux Dev可免費用於非商業用途,而其SOTA模型Flux Pro則是封閉源模型。(作為參考,Flux通常被認為是當前最好的開源圖像生成器,至少在當前的SDXL後期。)
穩定Diffusion 3.5有哪些特點?
穩定AI發布了三個版本的Stable Diffusion 3.5,以滿足不同的需求:
Stable Diffusion 3.5 Large:這是一個大版本,具有80億個參數,旨在提供一流的圖像質量和嚴格的提示遵從性。它適用於專業使用,特別是在1百萬像素的分辨率下,但也可以處理多種風格和視覺格式。
Stable Diffusion 3.5 Large Turbo:對於那些希望在品質上稍微犧牲一點以換取速度的人來說,這個縮減版的大模型是你的首選。它可以在僅四個步驟內生成高質量的圖像,而正常的SD3.5則需要約30個步驟才能生成一張優質圖像。這相當於Flux Schnell。
Stable Diffusion 3.5 Medium:即將推出的這個模型具有25億個參數,並針對消費級硬件進行了優化。它是用戶在0.25至2百萬像素之間需要穩定性能的中間選擇,同時不會犧牲定制性的便利。
這些模型更加靈活,允許用戶根據具體的創作需求對其進行微調。而且,如果你擔心你的消費級GPU是否能夠處理這些,穩定AI會提供支持。我們自己的測試顯示,Large Turbo在一個普通的配備了6GB VRAM的RTX 2060上,可以在大約40秒內生成圖像。
在相同低端硬件上,非量化的全版本需要超過3分鐘,但這就是質量的代價。
在幕後的改進
穩定AI正在迎頭趕上Flux,Flux是可定制性的首選模型。為了改善用戶體驗,穩定AI重新設計了SD 3.5的行為方式。「在開發模型時,我們優先考慮了可定制性,以提供一個基於此基礎可進一步擴展的靈活平台。為了實現這一點,我們將Query-Key正規化技術集成到轉換器塊中,穩定模型訓練過程並簡化進一步的微調和開發,」穩定AI表示。
換句話說,與以前相比,你現在可以更輕鬆地調整和完善這些模型,無論你是一位想要創建定制風格的藝術家,還是一位希望構建基於人工智能的應用程序的開發人員。穩定AI甚至分享了一份LoRA訓練指南,以幫助加快這一過程。
LoRA(低秩適應)是一種技術,可以將模型微調為專注於特定概念,無需重新訓練整個大型基礎模型,無論是風格還是主題。
當然,靈活性也帶來了一些折衷。該模型現在非常具有創造力,穩定AI警告說「缺乏具體性的提示可能會導致輸出的不確定性增加,美學水平可能會有所不同」。
如果你對Stable Diffusion 3.5還有疑慮,並且其「不確定性」讓你不敢嘗試,那麼這裡有一些對你的未來發展的幫助:它支持「負面提示」,這意味著你的提示可以包含不要做某些事情的指示。這對於那些希望在不經過麻煩的情況下對文本和圖像生成進行細化的人來說是一個巨大的改進。
對於那些希望對生成進行更多控制的人來說,這是一個很好的補充。事實上,在某些方面,SD3.5的提示風格更接近MidJourney而不是Flux,這使得用戶可以在不需要語言學學位的情況下進行創造。
除了定制化之外,Stable Diffusion 3.5在其他方面也有所進展:
提示遵從性:該大型模型現在在如何遵從用戶輸入方面與更大型的模型不相上下,在圖像生成器領域領先一步。穩定AI確保SD 3.5 Large在提示遵從性方面超越了Flux.1 Dev,但美學質量仍然不如後者。
圖像質量:我們談論的是生成能夠與一些資源消耗高的模型媲美的圖像,而不會耗盡你的GPU內存。在穩定AI的基準測試中,Flux.1 Dev在某些方面稍微勝過其他模型,然而SD 3.5 Large更高效,資源消耗更低。SD 3.5 Large Turbo在遵從性和質量上與Flux.1 Schnell相當。
風格多樣性:無論你是在追求3D渲染、逼真圖像、線條藝術還是繪畫風格,Stable Diffusion 3.5都能勝任。它處理的風格類型比Flux更廣泛,至少在我們的快速測試中是如此。
是的,值得一提的是,它是不受審查的。SD3.5 Large可以生成某些類型的內容,包括裸體,而不會遇到太大困難,儘管它並不完美。不論好壞,該模型不刻意限制,因此為用戶提供了充分的創作自由(儘管需要微調和一些特定提示以獲得最佳效果)。
當SD3推出並被指出在解剖理解方面失敗的主要原因之一時,這受到了嚴厲批評。我們可以證實它有能力生成NSFW圖像,然而,該模型不及最佳Flux微調模型,但與原始Flux模型相當。
但要警告一下:雖然SD3.5非常強大,但NSFW Furry藝術家們不應該期望很快或根本不會推出Pony Diffusion模型。最受歡迎且功能最強大的NSFW模型的創作者確認他們不感興趣開發SD3.5微調模型。相反,他們選擇使用Auraflow作為基礎來構建他們的模型。完成後,他們可能會考慮使用Flux。
對於那些喜歡折騰的人,ComfyUI現在支持Stable Diffusion 3.5,允許使用簽名基於節點的工作流進行本地推論。有許多工作流示例可以直接使用,如果你的RAM較低但想嘗試完整的SD3.5體驗,Comfy推出了一個實驗性的fp8-scaled模型,可以降低內存使用。
接下來呢?
10月29日,我們將會接觸到Stable Diffusion 3.5 Medium,而且不久之後,穩定AI承諾將發布SD 3.5的控制網。
ControlNets承諾提供專為專業用例量身定制的先進控制功能,它們可能會將SD3.5的功能提升到更高一個層次。如果你想了解更多關於它們的信息,你可以閱讀我們的SD 1.5簡介的摘要。然而,使用控制網將讓用戶做到選擇主題的姿勢,玩轉深度圖,根據塗鴉重新想像場景等等。
所以,Stable Diffusion 3.5是Flux的殺手嗎?還不完全,但它肯定開始看起來像一個有競爭力的對手。一些用戶仍然會挑剔,特別是在SD3 Medium失敗的風波之後。但是,隨著更好的解剖處理、更清晰的許可證以及在提示遵從性和輸出質量方面的顯著改進,很難爭辯說這不是一個重大進步。穩定AI正在從過去的錯誤中學習,朝著使先進的AI工具更加易於使用的未來邁進。