[閒聊] 驚!看色圖不求人 AI是否也能畫色圖?

看板 C_Chat
作者 cybermeow (北歐組一生推)
時間 2022-09-06 14:08:08
留言 46則留言 (34推 0噓 12→)

雖然下了很農場的標題 但這一篇認真的研究論文 大家或許以為AI跟色圖很遙遠 但事實真的是這樣嗎 在一年前可能沒有錯 但經過最近的突飛猛進 故事已經進入了新的轉捩點 讓我們歡迎今天的兩個主角 1. 由好心人士在四個A100跟一個小的 Danbooru dataset 在 stable diffusion 經過「不到一天」fine tune完成的 waifu diffusion https://huggingface.co/hakurei/waifu-diffusion 2. 怕你不會下 prompt 叫你給圖片直接幫你學習文字 embedding 的 textual inversion https://github.com/rinongal/textual_inversion 先聊聊限制 首先很明顯 這麼模型可能根本沒看過ACG的色圖 也就是只能用真人了解色的概念 在生成偏向全身圖片的時候 比例容易受到影響造成換臉效果 再來就是用 textual inversion 只能給予極少張圖學習固定概念 因為沒有對於學習概念專門的處理 能學到的東西不一定是你想要的 再來是結果 我們當然不能在這裡貼色圖 但大家不妨體會一下這套模型能做到什麼什麼程度 -------------------- 泳裝鯊鯊 -------------------- 首先是用7張泳裝古拉做輸入得到的部份結果 https://i.imgur.com/IW9jLzH.jpg
講評: 這裡使用鯊鯊並非筆者興趣 而是因為此角色的某種屬性可能在資料集裡面比較缺乏 為了測試模型在 out of distribution 的成效如何特定選用 可以看到雖然大致成果還算不錯 但模型無法抓到髮型特徵 同時由於資料集裡面東方角色過多 很大一部份可能直接利用學到的琪露諾造型進行代替 另外真人的影響也可以從部份圖的比例觀察出 注意到這裡選用了固定角色跟服裝的作法 因此生成的圖平均相似程度高品質高 但已經綁死難以經由其他文字再做調整 至於色圖的部份嗎 資源都放在上面了 成效如何可以自己驗證 -------------------- 百鬼 -------------------- 利用約12張百鬼作為輸入 得到的圖片相較的雜 https://i.imgur.com/Pmz4PmF.jpg
可以看出這裡最大的難點在角的生成 跟鯊鯊一樣 這個東西在資料集裡面大概非常稀有 因此生成的常常以獸耳或鑑娘儀裝置換 還以為是色違天津風 另外跟上面一樣有奶子忽大忽小的問題 幾乎下泳裝相關關鍵字奶子就會變大 完全顯示了資料集的 bias 關於這種大男人主義下的產物 我們應當強烈譴責 特別好的幾張在這裡 https://i.imgur.com/FQZ6nMe.jpg
-------------------- 茸茸鼠 -------------------- 飲水思源 測試完美國日本的vtuber後當然要回來測測台V代表的茸茸鼠 這裡是以九張差異頗大的圖片為參考 (畢竟茸茸鼠圖片也相較少 得到了以下成果 https://i.imgur.com/zvJeiSv.jpg
不知道是不是因為圖沒去背有些蛋糕之類的 導致生成的圖片常常衣服跟蛋糕甚至美露露合為一塊 https://i.imgur.com/NMvOTaW.jpg
無法正確掌握胸部大小的問題依舊存在 https://i.imgur.com/qSKFGI5.jpg
嘗試跟真實世界混雜會很可怕 https://i.imgur.com/5HEzPoQ.png
沒臉沒手沒腳生成內褲容易多了 https://i.imgur.com/LaSTMJP.png
-------------------- 私心同場加映 光輝魔女金妮 -------------------- 因為金妮實在太可愛了 所以抓了六張動畫截圖來測試如下 https://i.imgur.com/zFMAM0V.jpg
這邊可以明確感覺到 對圖片要求更改越大 越會失去角色特質 從這樣 https://i.imgur.com/KiC3NhL.jpg
到這樣 https://i.imgur.com/oanEDnj.jpg
除了已經提過好幾次的胸部大小問題 髮色 頭髮長度也都會改變 我好幾次還以為看到了桑妮亞 這告訴我們金妮跟桑妮亞果然師出同源吧 -------------------- 你可以做什麼 -------------------- 要得到上面成果 可以使用hugging face的diffuser https://github.com/huggingface/diffusers/tree/main/examples/textual_inversion 只要準備好四五張圖片照著說明跑就可以了 圖片大小改成484x484可以在12G vram跑 所以1080ti, 2080ti都ok 不過就像前面所說 如果沒有在正確的資料集訓練過 你永遠達不想要的效果 而想要 fine tune 模型的話據說至少要 30G vram 大概都是要到 A100 層級 或是等 4090ti 回到一開始的問題 AI能夠生成色圖嗎 只能說 真人的都生成這麼久了 潘朵拉的盒子早就被打開了 一直都不是技術層面的問題 而是沒人敢明目張膽去做而已 如果你現在訓練了一個色圖產生器 可能會一夜致富 但也可能會被抓走 -------------------- 上面的圖看起來還是普普啊 -------------------- 必須說目前的圖都是靠少數資訊生成整張的 中玩不中用 真的要做就是做類似修圖軟體 實際你光把四肢分開用乾淨資料集訓練 可能就可以解除目前手腳壞掉的問題 更甚者 敝人覺得AI紙娃娃換裝系統才是大家該努力的目標 又舉例來說 https://www.reddit.com/r/AnimeResearch/comments/w17ttl/collaborative_neural_re ndering_using_anime/ 這個用四張圖配真人舞蹈直接生成動漫角色3d舞蹈這種東西 可以利用姿勢讓產生的圖片有參考依據 絕對會比現在效果好上不少 -------------------- 延伸閱讀 -------------------- 1. AI不存在 只有統計模型 https://www.pttweb.cc/bbs/C_Chat/M.1661681711.A.DE3 2. 中國人也做了一套 但當你只能用別人的API 就永遠都是被管的那一個 https://www.pttweb.cc/bbs/C_Chat/M.1661896344.A.3BA -- 北歐組一生推 https://i.imgur.com/ydMoryp.jpg
https://i.imgur.com/njHa0OA.jpg
https://i.imgur.com/KVrWmNb.jpg
https://i.imgur.com/leUc4jP.jpg
https://i.imgur.com/aWFuDE4.jpg
-- 我只是為了嘗試理解這模型在不同的情況下表現如何而已 ai的世界跟你們想的不一樣
真實系的san值才低 我看完整個人都不好了 詭異感就我說的 這些都是玩具 沒有真的認真調整過 那個要付錢效果看起來好的midjourney是別人精心訓練過的 而且不太能真的生成一般動畫 類型圖片 至於像waifulab這種可以算是上一代圖像生成模型一路調整的結果 他們dataset也都是特別清理簡化過 這一代模型目前還沒有人真的在動畫上面做過 這些都是像我說的 由個人(好像還是個學生)在不到一天獨立完成的 這才是驚人的點 可以想見如果有更多人投入 不久的將來可以用這套方法去生成真的consistent的ACG圖片 難說 我看是快了 https://imgur.com/a/JJhe8Um 不過讓有繪畫底子的人直接後修應該是最快的
※ 批踢踢實業坊(ptt.cc), 來自: 114.34.19.251 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1662444496.A.2E6.html

doramon888: 好胸~09/06 14:09

Israfil: 窩懷疑你有ㄌㄌㄎ傾向 而且好像有證據09/06 14:10

Dacamiya: 懷疑是一成09/06 14:10

pheather: TECHNOLOGY IS FOR PORN09/06 14:10

medama: 好09/06 14:10

rayli1224: 所以之後有機會生出一個很懂的AI陪我聊acg嗎09/06 14:11

diplomaMill: 等等來畫鯊鯊琪露諾好了09/06 14:11

dafeichai: ㄌㄌ就是讚啦 想舔09/06 14:12

neetarashi: 推09/06 14:12

erhumm: 你喜歡蘿莉對吧 沒事我也喜歡09/06 14:13

hank81177: 茸茸鼠旁邊的美露露是被輻射照射過嗎?09/06 14:14

AdmiralAdudu: 沒關係啦 蘿莉控就蘿莉控09/06 14:16

uohZemllac: 推09/06 14:18

rongrong421: 先推09/06 14:19

hk129900: 那個用百鬼做圖出來的的角有點獵奇啊 看了會降SAN09/06 14:22

ntupeter: 可以色色09/06 14:22

opeminbod001: 怎麼不把好狐做成waifu09/06 14:24

GiantGG: https://i.imgur.com/wOe7nsb.jpg 抓到了,茸茸鼠最近胸 09/06 14:32

GiantGG: 部變大,果然是偷塞蛋糕 09/06 14:32

Riziesi: 推 09/06 14:37

jarr: 只能在linux環境嗎 還得裝WSL好麻煩R09/06 14:40

CoMiyuki: 這不就可以幫因為描圖的vt解套嗎?可以描圖又不會炎上09/06 14:41

DarkyIsCat: 這是學術研究09/06 14:44

LoserLee: 推實測09/06 14:49

s8018572: 我覺得san值有點低 這裡面有幾張 都有說不出的詭異感09/06 14:56

jeremy7986: 原來是學術研究文啊 我還以為是一成的文章呢09/06 15:05

SangoGO: 有些胸罩已經是神力胸罩了,但真正要產生的是...09/06 15:10

guogu: 原來茸茸鼠自己塞蛋糕還敢笑人塞麵包 09/06 15:11

iwinlottery: 這是一成資料庫吧09/06 15:23

loki5210: 雖然我看不懂你在說什麼 但是好像很厲害09/06 15:29

wetor: 小張圖還不錯放大有點怕 09/06 15:42

truelife009: 還看了一下id是不是一成 09/06 16:06

KangarooDad: 滿崩的啊 09/06 16:11

nilr: 推09/06 16:49

pomelolawod: 茸茸鼠時大時小 蠻正常的XD 09/06 16:53

obeytherules: 鯊鯊的好色 09/06 17:18

n555123: 推 09/06 18:58

yiefaung: 推diffusion model解釋得很清楚 之前看一堆討論實在是… 09/06 19:53

bluejark: 要做色圖就是把你的訓練模組縮小那他生圖才不會亂 09/06 19:54

urzakim: 美祿祿是嗑藥了?09/06 20:15

a12073311: 茸茸鼠會對無法正確掌握大小的那三張點讚吧09/06 20:25

avans: 學術研究xd09/06 20:26

GonFreecss: 跟真實世界混雜那張旁邊的是住深淵六層嗎09/06 21:13

harryzx0: 讚 09/07 00:34

linzero: 所以目前AI要出多圖,像一套輕小,這樣人物大概會很容易 09/07 11:09

linzero: 走樣吧? 09/07 11:09

您可能感興趣