国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【AI繪畫】深入理解Stable Diffusion!站內(nèi)首個深入教程,30分鐘

2023-07-24 20:24 作者:豎土不立  | 我要投稿

【賽博佛祖教程語錄】00:05 大家好,我是秋葉,今天來直播給大家做一個關于Stable Diffusion的分享。這個課程本來是今年年初說要給一個企業(yè)講的課,但是由于今天早上直播的時候看到別人嘎韭菜。實在是繃不住了,所以決定把自己以前錄的內(nèi)容再講一下。哎,這個課會有錄播,我稍微晚些的時候剪輯一下,會投稿視頻。然后這次分享主要會以Stable Diffusion模型結(jié)構(gòu)為主,重點串講它的運作過程。基于這個結(jié)構(gòu)來介紹一些模型,比如LoCon LyCORIS,嗯,然后還有一些其他東西。?

00:43 總之就是大不愛是這么有感覺吧。吼,那么就直接開始上來呢。就是這張圖還是比較炸裂的,所以我一直也擔心我在講這些東西的時候,大家到底聽不懂,聽不懂?不管怎么樣,反正就是提到Stable Diffusion,就必須要說這張圖。呃,這是Stable Diffusion的祖宗,也就是Latent Diffusion。論文提出的這個結(jié)構(gòu)我們可以看到,從左到右是分為三部分的,第一部分是這個Pixel Space。然后第二部分是Latent Space,然后再下一部分是conditioning,這部分的是作為條件輸入,包括我們平常輸入的文本,都是在這里輸入的。然后呢,我們平常所在的圖片是這個Pixel Space,就是像素空間啊,啊字比較丑,就是我們平常的看的正常圖像,然后Latent Space呢,就是所謂的潛空間了,或者也可以叫什么隱空間呀,什么各種東西,反正它就是Latent Space,像素空間經(jīng)過這個一個E,一個D,這個呢,就是我們平常說的VAE。VAE呢,充當潛空間和像素空間的橋梁,然后實際上上邊這部分可以不用看,因為我們,因為我們現(xiàn),因為我們平常用的時候是下半部分啊。下層部分我們首先輸入text,然后傳到這個QKV,QKV是叫一個cross attention。?

03:01 也就是交叉注意力層。然后呢,這個整個這個結(jié)構(gòu)呢,它是叫U-NET,也就是U,呃,反正就是U-NET,U網(wǎng)絡吧,這個東西然后它在這里不斷的迭代,這里不斷的迭代,多少次,多少次。這是一個右邊,這個大額是大圖,然后左邊的是小圖,實際上是它在不斷的在這里迭代,迭代,迭代多少圈兒,然后這個實際上迭代多少圈兒呢?它就是Step,這就是整個的SD的一個基礎的上張圖片的過程是我們平常用的是下半部分啊。下半部分,上半部分呢,是從給正常圖片,然后增加叫,增加噪聲,然后得到一張混亂噪聲圖片,這個部分是用來訓練用的,然后下半部分才是我們平常用生成圖片的部分。在我們平常生成圖片的時候,首先我們輸入Text,然后經(jīng)過這個這個東西,然后經(jīng)過這個東西以后,可以你可以把它看作是變成生成條件。然后生成條件,通過cross attention,然后和U-NET進行結(jié)合,然后去引導SD的生成圖片,然后在生成圖片的整個過程當中呢。?

05:01 都是在這個LIGHTNING的SPACE,也就是淺紅間內(nèi)運作的。淺紅間內(nèi)運作為什么要在淺紅間內(nèi)呢?淺紅間是因為淺紅間你可以把它理解成一個壓縮過的空間原因。用淺紅間的原因就是說,現(xiàn)在計算算力如果直接算那么大的圖片呢,它不是很好,比如說我們平常家用的電腦啊,那它算不過來。其實LATEDEEPION就是CBDIFION的祖宗啊,也就也經(jīng)常就是有一個算傳是它比較綠色低碳。就是因為它用了這個,然后它的計算量會減顯著減少很多。然后呢,這個就是整體的SD模型基礎的結(jié)構(gòu)原理了再往下走呢,因為CBDIFION呢,目前是講的是我們先要輸入一段文本吧。比如說一個,然后我們需要經(jīng)過一個文的編碼器,然后才到了UNIUNNE是主要雙張圖片的部分。然后最后呢經(jīng)過UNI的雙稱彎圖片,然后送到VA里,然后再到了正常圖片,是這么一個流程。?

?

06:10 所以文本編碼器我們平常也會,如果玩兒得多的話也會訓練到它是什么東西呢?它其實是KEEP反用的是CRE的TEINC部分KEEP的其實它是一個基于對比你的文本圖像預下來方法。它是一種基于對比學習的動漫態(tài)模型。反正哎,再講深了,可能也基本上聽不懂吧。基本上就是,你只要知道它是這樣子的,我們輸入一個詞語,然后經(jīng)過TOKENES以后得到一組數(shù)字。一組數(shù)字,然后經(jīng)過這個叫INUP的東西,然后再送入TRANSFOR,然后最后得到了一個上升條件,然后在這個東西去指導U-NET上升圖片。實際上大家應該知道有一個叫隱白ING的東西,也就是TEUREVERION,或者說叫文本繁衍,那個訓練的模式就是IN白ING模型很小的那一個。?

?

07:10 他做什么呢?他就是做了一個,在IN白LOUP這里做了一個對應,然后呢,他就知道你輸入的這個詞,它就是那個INING了然后它更加準確然后接下來呢就是這個UNNE了UNNE實際的生成圖片的部分都是在這里。呃,在這部分會對生成的噪聲進行降噪,一步步的然后最后成為一張正常的圖片。當然這個可能還是比較難看懂,那我們來換一個圖,這個可能就知道是什么東西了。這樣子大家應該都很熟悉,好吧,就是這個混色,見什么混魔MIX,這樣大家就都很熟悉。它是一個U型的這么一個東西,所以它得名叫UNNEUNNE的結(jié)構(gòu)就差不多是這樣子的。?

?

08:01 這張圖比較小,我實際上是有一張更大更清楚的圖片的,但是不在這個IPAD上,反正它就是長這么樣的一個東西這就是實際上用的UNNE的樣子啊。它好大就是這樣的就是我從知乎位巴大佬壞的兔毛過來了。ICOMA二DRENE,然后經(jīng)過TRANSFOR這樣一層層走下去,然后中間一層,然后再走上去,是這么樣的一個結(jié)構(gòu)。然后呢,實際上我們我這是插一嘴啊,后邊會繼續(xù)講這個東西,我們睡難的。正常的LORA就是修改的是這個TRANSFOR的這個東西里邊兒的一小部分看到這個紫色的這個東西修改是這里邊的一小部分所以說正常的常用的LORA。它是不會對U-NET整個層進行修改的,所以說LORA在一部分程度上它會比較控制性更弱一些。?

?

08:58 最終的緣由就是在這里,它實際上只修改了一小部分。好吧,那接下來這個先放在這里不講,然后我們再繼續(xù)往下。然后實際上剛才也說過,我們最后通過KLI得到的CONITION是怎么和UNNE結(jié)合起來的呢?就是在這里的,CROSSATION就這么是利用這個東西結(jié)合起來的其實也不需要知道它具體是怎么回事的。你只要知道它是這么結(jié)合的就行了,實際上在身也不會用著了。然后呢,我們常說那個叉FORMAS呀,最終都是在CLOSESTATTENTION這地方的優(yōu)化。所以才讓它速度不快。?

?

09:36 然后唯E這個就不講了,也講過很多遍了,它就是它就是在的就是淺空潛空間和潛空間和實際的像素空間之間的一個橋梁。好像這么多聽不懂的估計也已經(jīng)云圖,然后等會會講一點兒輕松一些的東西,就這樣,剛才講了這么多的話,要是結(jié)合康UI來看的話會更直觀一些。嗯,但是嗯,怎么說呢,也其實也沒有那么直觀吧,就先這樣。然后我專欄是詳細講過這部分的,一個就是二月二號發(fā)的那個專欄,叫大魔導書,可以看一看,里邊有一張就是更加簡單的圖片,我現(xiàn)在放出來是長這樣子的,其實和我剛才講的東西是一樣的,就是輸入一個單詞,過了文的連碼器,然后得到一個東西,然后去知導UNNE生成圖像,然后UNNE生成圖像實際是在潛空間內(nèi)的。然后通過VAE轉(zhuǎn)化成正常圖片。我們平常用的死機種子就是產(chǎn)生噪聲圖用的是這么一個東西,然后基本上就是這樣子的。?

?

10:46 知道了這個結(jié)構(gòu)以后這下模型就會變得更加好理解一些啊,不要錄屏這個可以這個會之后會發(fā)的然后就是我們場站的一些渲染模型的方式有這幾種。一個是TECHION,也叫文本繁衍,然后現(xiàn)在出來的就是我們平常用的叫INBADING的那個小模型。就是幾十K的,經(jīng)常什么EZNETIVE就是這個。然后下一個是HYNETWORKHYNETWORKOOK現(xiàn)在用的比較少了,嗯,但是SD用的HYNEWORK和實際的HYNEWORK論門還是不太一樣的。這個因為用的比較少,所以我也不展開講哦,大家知道有這么多東西就行了。然后下一步是FAN或者是DREAMBOSDREAMBS,就是直接微調(diào),然后FIN的或不是呸呸呸說法的時候FUNFANT是直接微調(diào)然后DREAMBOSS的話實際上是改善的改良版的一種飯廳。它引入了一些之前我性生成的圖片來防止模型忘記以前學的東西。可以這么理解,就是發(fā)言聽友加正則化就是真BOSS。然后再接下來就是LORALORA,然后以及它對應的青驗了做的LI克BEKRE。?

?

12:06 這倆有什么區(qū)別呢?剛才我們看到那個實際上原本的LORA會會只對只對UNI改了一小部分。然后LIC呢?因為引入了對COLTION,就是卷機的地質(zhì)分解,所以它能改的更多一些,就是它能改到REINE部分。所以LIC的對?,F(xiàn)在這個LIC更加容易,過你后,它對網(wǎng)絡的控制性也越強。然后是它收最開始是這個它SHOWION它就是那個INBA模型INBUY模型剛才我也講了實際上是在實在。實際上是在尹半尿哈這里做了文章,經(jīng)過這個加了一個尹半寧,就是加了這么多東西星,這樣子的話,專這個專有名稱S,然后我們再給這個這個,我們再給這個S配有一個專有的語義向量。然后這樣的話那個可以就是文本編碼器一旦見到你輸入這個詞,那就知道是這個專有名詞,就知道去找對應的語音向量了。然后它說ION在WBYUONE里邊兒,就是很容易找到對應的時間位置,這個就不講了這個當時這個當時是直接看代碼的這部分還是比較難一些然后再接下來的就是FANTO和真BOSS這個真BOSS啊。?

?

13:26 答錯了DREAMBOSS本身就是FAN的一種加了一個小TRI它是一種翻聽的方法。但是由于叫法的洗慣,它練大模型這件事本身經(jīng)常就會被叫成練DB。這怎么說呢?其實一個歷史遺留問題,最開始練大模型都用JANBOS,沒人翻聽,然后就習慣性就都叫成DREAMBOS了。然后翻聽或者說DREAMMBOS有很多種可以訓練的方式我介紹了我之前視頻里介紹的是一個在線訓練的腳本。支持翻譯聽友和DREAMBOSS,它還是比較方便的,因為我也經(jīng)常會維護。?

?

14:07 然后除了這個,大家還可以選擇一些其他的訓練腳本,比如說NINEDIFFERENTIFION。這是一個訓練腳本,我最近經(jīng)常在用的然后再接下來就是一個,也是一個國人大佬開發(fā)的,叫HCPD,這個用的人比較少,因為它雖然功能特別強,但是它比較復雜。然后在下一步就是COER的那個,就是日本人的那個訓練腳本或者訓練UI,嗯,這個的話它它的那個MATTADATA有點兒詭異所以我不是很喜歡用它但也是可以選擇用的一個東西呃。在之后就是DREAMBUS的插價了,這個我是非常不推薦使用的嗯,因為他還很久沒有更新過了。然后就是你安了DREAMBOS的插件,經(jīng)常YBY就就戒了,就打不開了。然后除了這些以外呢,我看彈幕也有人說用DFEELSUS的腳本,DFEELS的腳本,那個不是,怎么說呢,和我我的那個炫達腳本就是在別人改的地桌色腳板上邊兒再改的。其實基本上基本上源頭都是地桌色四腳腳板。然后怎么說的呢,這個DREAMBUS訓利有很多人經(jīng)常會問一些猜數(shù)啊什么的,這個其實我只能說我推薦的基礎學習率就是三E負六。因為每個訓練你東西不同啊,素材不同,很多東西都不同,學習率還是需要自己進行慢慢找的。?

?

15:48 然后BASIZ就是BS,這個東西其實也是看自己慢慢找的,基本上如果你訓練級的話就一百張左右那就不用調(diào)到太大也就調(diào)到二或者三都可以了然后KL或者Q的LR也都可以開這個我在之前的視頻里面講過都可以沒問題不開其實也可以。沒有太大的區(qū)別。然后當我們的線鏈素材達到七萬張的時候,這個白癡塞子就可以能開到,多到就開多到了。然后呢,線鏈的部署,百張左右的圖片,一萬步以內(nèi)我覺得基本上都是可以的,再多的情步數(shù)再高的話,它可能就直接過你河了。然后圖片多的情況下,可以就是不按步數(shù)看了。按步數(shù)看還是有點難算,就你直直接訓量五被EPEC往上就基本上有效果了,然后再接下來很重要的一點是打標。打標這個的話因為很多人都用TIGER什么自動打標嘛,然后有人就喜歡要標簽多得多得多。然后就調(diào)到了自動準確率調(diào)到零點一什么的,其實我不是很推薦那個置信度調(diào)得特別低,我覺得零點三五以上就差不多了然后如果你手動達標的話。?

?

17:13 那就盡可能準確全面吧,這個也沒什么可說的。嗯,在之后就是底膜和素材,底膜的話,現(xiàn)在底膜還是盡量選擇與現(xiàn)在物體相同相似的,可以可以盡量的減少一些你的訓練難度吧。當然其實無可能的話還是準備盡可能多的素材,然后從基礎模型直接進行翻聽的效果會比較好一些。就比如說基礎模型就包括比如說SD一點五,然后還有NOVAAI的那款模型,素材就不用多數(shù)的,近大幅復多樣嘛,不要運用那種什么表情差分圖,不是很好然后白質(zhì)賽子我推薦它應該是第一確第一個確定的參數(shù)然后先確定白質(zhì)賽子以后再來去嘗試調(diào)整實習率。隨習率呢?一用我習慣性是從小到大的去嘗試,然后最為重要的是步數(shù),因為步數(shù)嘛,我盡到可以往多跑,然后看一些自保存的步數(shù)少的模型。自己去試一試就行了。然后再接下來就是LORA的原理了,這部分怎么說呢,哎,講就講吧,不是很想講,我們就是因為我們調(diào)整這個微調(diào)AI后話這模型嘛就是要么就是直接微調(diào)翻。然后就是真不死,基本上就是這兩種路然后LORA呢,它是一個算法它是去簡化,微調(diào)時候的算法它并不是說一個單獨的什么東西。?

?

18:52 LORA是什么呢?我們可以看LORA的那個論文里邊的這張圖,它其實是一個。我找一下那個論文啊,我IPAD上沒有。實際上是這么一個東西,WW零加上德特W等于W零加上BABA,就是這里的這個東西,A是做降維的,B是做升維的,W零是原本的,這個東西就是他這里給的圖像是D成RD成D的。然后B然后經(jīng)過A降維降成了R,然后降成了R以后然后B再升維升回去以后升回去了以后再加上這里。首際上我們就可以理解成開了一個旁路去在第一維微調(diào),然后再加回去。大概就是這么一種感覺,就是開了一個小的東西去調(diào)整,然后再加回去就行了。就是這么一種感覺。我再講的深了,可能就涉及到復學了。?

?

19:56 那它調(diào)的是哪呢?我剛才也講了很多次,它調(diào)的是TRANSFROM的那個一部分的東西哎,那張圖呢,我找下那張圖剛才的那張U-NET圖像在這里啊。調(diào)的是這個TRANSF這個紫的東西,紫的東西它里邊兒它調(diào),我剛剛也講過,它是調(diào)的里邊兒的一部分東西,也就是線性層LI,線性層這部分因為所以這也是為什么它沒調(diào)整REDNERENE。它調(diào)的應該是剪輯,基本上就是這里,基本上就是這樣的感覺了。然后在近階的話,LI克RIS又是什么呢?它就是一個知識卷擊的LORA,它是就是清亞樓做的一個東西,然后它這個東西根據(jù)不同的各種算法。什么有氛圍鏤空,LO哈A撒一堆東西,什么眼滑流的,但實際上我用的不算多,我最喜歡用的還是這個鏤空,因為實際上等到等到你不得不用鏤空的時候。那還不如去直接直接微調(diào)大模型就是我個人的習慣,要么就是老軟,然后再上一集就直接去調(diào)大模型,老軟了配什么LORA就直接調(diào),反挺有了。是這樣子的,但是LIS是還是很否用的,我還很喜歡。然后LORA訓練參數(shù)的條件上來說,還我個人最喜歡的還是原來的I搭巴比,這套參數(shù)也一直是我那個默認參數(shù)給的。?

?

21:32 大家實際上很多人懈怠失敗就是因為它的步數(shù)實在太多了,直接就過你喝了,然后過你喝就會導致TI個失效啊。畫面物體,人物出現(xiàn)詭異的細節(jié)呀,畫面線條變粗啊,就各種這些問題,然后常用的減輕過你合作方式最基礎的呢。自然就是減小隨機率,減小APPLE和或者四代,其實最簡單的還是你少學兩撥它就好了。然后數(shù)據(jù)增強來說的話是在我們面對現(xiàn)在數(shù)據(jù)不夠的時候才會用的,比如說一張例會練LRA那種情況。然后TAXINCOER,其實我不是特別建議訓練這個東西,但是如果你不訓練的話效果會稍微差一些對接下來就是更換這個OKMIZ就是優(yōu)化器的經(jīng)常也有人喜歡就新的嘛。那個神通優(yōu)化器嘛,然后再下一個就是DROP的做也是非常常用的一個防止過你盒的方式但是DROP別調(diào)太大調(diào)太大就搶都DROP沒了雖然從數(shù)據(jù)集開始來說的話。我們一般來說的數(shù)據(jù)增強啊,就是不算SD這部分的,我們可以有很多種不同的數(shù)據(jù)散開方法。?

?

22:55 比如說調(diào)顏色呀,飽和度啊,黑白呀,剪裁呀,旋轉(zhuǎn)啊,反正就是對圖片改吧改吧,就算一張新的圖票了。實際上我們現(xiàn)在模型的話很少會用這個東西,因為可能會有一些詭異的效果,然后現(xiàn)在老軟的那個東西呢,其實是有一些這個參數(shù)可以直接用的。然后實際上我們我自己常用的方式是這個利用已有的AI進行數(shù)據(jù)增強,比如說啊用土生圖,然后CONET那個RE形式就是去參考的那個東西。是一個很好用的東西。然后我們還可以生直接生成一些原本圖片的線稿,然后還可以先訓練一個差不多的模型,雖然有些過敏盒然后利用這個過你盒加上口說NET去生成新的圖片然后上超完新的圖片再拿回來繼續(xù)學練。在之后就是學習率以及樂華氣引了。呃,我的教程里一直用的是余弦或者帶充啟,就是COSVRESULT那個,然后實際上你要是用CO的話也是可以的。?

?

24:08 就是那個常量就是常數(shù)的,那個學習率也是可以用的然后隨習率就是CHED了就以后就那個調(diào)CHED了嘛。然后在之后是我們調(diào)件就學習率那個數(shù)字那個數(shù)值的大小,我們應該是先從D往高試,我建議是從D網(wǎng)高式,再接下來就是優(yōu)化期常用的IDWID達巴比特。然后LINESGDDADDAWTIONIDFCTOR,然后還有最近新出的那個叫申通的東西。我個人常用的還是IDW,然后也有很多人喜歡用LINELINE也是一個很好的優(yōu)化器然后常見來說就是要用三分之一的AW學積率然后再去用LINE然后就有很多自適應實際率的優(yōu)化器就是DAD的那些東西然后還有深通什么的他們也還不錯。就是會占用更多的一些顯存。那也怎么說呢,確實你就是有時候確實會在一些訓練節(jié)上崩牛,所以我最推薦的還是ANDAW比特。它差距其實也沒有那么大。?

?

25:22 然后如果你限量過,經(jīng)常容易過你河的話,可以考慮不對TOUCHININCO進行訓練就是不對文的編碼器進行訓練因為TECHIN真的很容易就直接過你河了。然后其實可以有一個東西叫我TEINCOSTOPOP,就是提早停止訓的,但是有一些腳本還沒有這個功能,所以如果要訓練TEINCO的話。盡量調(diào)低一些現(xiàn)心率吧。然后就是常見的一個東西叫加正則,加務正則其實就是DREAM布S這個東西我在專欄里也講過大家可以回去看一看在的后就是如果我們真的現(xiàn)在出了一個過年猴的模型。那怎么去用它呢?其實真的很簡單,我們是只需要把參與正常模型融合一下就好了。然后或者說我們使的時候啊,帶上CNE進行額外控制,也能減少一些已經(jīng)過你盒的模型的那個影響。然后針對有部分就是文本編碼器過你盒的模型,可以嘗試拿來其他模型的文的編碼器覆蓋掉。?

?

26:35 呃,在之后就是插件的介紹和原理了嗯,比如說CCONTROLNE這部分,其實我不是特別想講了,因為前面看大家好多人都沒聽懂。嗯,這還是挺怎么說呢,比之前的稍微難一些吧。嗯,要不今天就先到這里,CNE的下次再單獨拿出來一次進行。講后基本上就這樣,希望這些稍微深入一丟丟的知識能讓那些嘎韭菜的課司機收來一點兒吧。哦,評話的時間不對,不要在這細節(jié)啊。今天的課就到這里了。哎,能清楚我這個還是挺難的,主要是我講的也不好。本來這個事其實是有稿子的,但是今天我沒看,稿子隨績效發(fā)揮了。對這個以前我是給其他人講過一遍的,當時也是有不少人來聽,那個是寫了稿子的,今天沒看那個稿子。?

?

27:39 課件的話不傳了,看視頻就行了,會有錄播的?

?

【AI繪畫】深入理解Stable Diffusion!站內(nèi)首個深入教程,30分鐘的評論 (共 條)

分享到微博請遵守國家法律
盖州市| 甘肃省| 丽水市| 湘西| 长岛县| 贵州省| 平顺县| 无为县| 齐河县| 徐闻县| 乳山市| 襄樊市| 汶上县| 新余市| 赣榆县| 昌图县| 太谷县| 观塘区| 安岳县| 贵溪市| 苍南县| 怀安县| 邵东县| 玉树县| 承德县| 亚东县| 大足县| 四子王旗| 湖南省| 山西省| 抚州市| 惠东县| 灵山县| 玛纳斯县| 七台河市| 贡山| 政和县| 得荣县| 嘉禾县| 正镶白旗| 安徽省|