AI繪畫領(lǐng)域的知名開發(fā)者、ControlNet的作者推出了一項(xiàng)備受矚目的新項(xiàng)目。盡管項(xiàng)目尚未開源,但已在GitHub上迅速斬獲660顆星,引發(fā)了技術(shù)社區(qū)的熱烈討論。這次突破的核心在于,AI繪畫工具首次實(shí)現(xiàn)了類似傳統(tǒng)數(shù)字藝術(shù)軟件的“圖層分離”功能,這標(biāo)志著生成式AI在圖像處理與創(chuàng)作控制方面邁出了關(guān)鍵一步。
長(zhǎng)久以來,基于擴(kuò)散模型的AI繪畫工具(如Stable Diffusion)雖然能生成驚艷的圖像,但輸出結(jié)果通常是一個(gè)“扁平”的整體,用戶難以對(duì)生成圖像中的特定元素(如人物、背景、裝飾物)進(jìn)行獨(dú)立編輯或調(diào)整。新項(xiàng)目通過創(chuàng)新的數(shù)據(jù)處理和模型架構(gòu),試圖解決這一痛點(diǎn)。據(jù)悉,該技術(shù)能夠在一定程度上解析并分離生成圖像中的不同語義組成部分,并將其對(duì)應(yīng)到可獨(dú)立操作的“圖層”或“通道”中。這意味著用戶可以在AI生成初稿后,像使用Photoshop一樣,單獨(dú)修改畫面中某個(gè)對(duì)象的顏色、紋理、位置,甚至替換它,而無需重新生成整張圖像,極大提升了創(chuàng)作效率和可控性。
項(xiàng)目的火爆,其背后的數(shù)據(jù)處理方法論功不可沒。從已披露的信息看,這項(xiàng)工作并非簡(jiǎn)單地給現(xiàn)有模型打補(bǔ)丁,而是在訓(xùn)練數(shù)據(jù)的構(gòu)建、標(biāo)注以及模型的學(xué)習(xí)目標(biāo)上進(jìn)行了深度革新。研究者很可能構(gòu)建了包含豐富圖層結(jié)構(gòu)信息的配對(duì)數(shù)據(jù)集,并設(shè)計(jì)了相應(yīng)的學(xué)習(xí)框架,使模型能夠理解并輸出分層的表征。這種對(duì)數(shù)據(jù)“結(jié)構(gòu)”的重視和處理,正是當(dāng)前AIGC從“粗放生成”走向“精細(xì)控制”的重要技術(shù)路徑。
660顆星在項(xiàng)目未開源的情況下獲得,充分反映了社區(qū)對(duì)更高控制力AI繪畫工具的迫切需求以及對(duì)該作者技術(shù)信譽(yù)的認(rèn)可。ControlNet的成功已經(jīng)證明了其在引入空間條件控制方面的強(qiáng)大能力,而此次新作可被視為在“語義層”控制上的一次躍進(jìn)。它預(yù)示著未來AI繪畫的工作流程將與專業(yè)設(shè)計(jì)軟件深度融合,藝術(shù)家可以更自然地將AI作為創(chuàng)意伙伴,進(jìn)行迭代式、非破壞性的編輯。
項(xiàng)目仍處于早期階段,其實(shí)際效果、泛化能力以及開源后的具體實(shí)現(xiàn)細(xì)節(jié)還有待觀察。但毋庸置疑,它已經(jīng)為AI繪畫的數(shù)據(jù)處理與模型設(shè)計(jì)方向點(diǎn)燃了一盞明燈。當(dāng)AI不僅能生成像素,還能理解并輸出像素背后的結(jié)構(gòu)時(shí),一個(gè)更強(qiáng)大、更協(xié)作的數(shù)字創(chuàng)作新時(shí)代正在悄然來臨。