ಠ_ಠ 偷偷說插畫AI又陷爭議！Novel AI官方自爆以非法搬運網站當訓練來源生成圖片竟自帶簽名？ | udn遊戲...因為很常看到有人不知道，想試著淺談一下目前機器學習模型(ai模型)概況。#AI畫圖 #機器 - #p0lm8w

1 years ago

插畫AI又陷爭議！Novel AI官方自爆以非法搬運網站當訓練來源生成圖片竟自帶簽名？ | udn遊戲...因為很常看到有人不知道，想試著淺談一下目前機器學習模型(ai模型)概況。
#AI畫圖 #機器學習

1 years ago

目前的畫圖AI屬於多模態模型，多模態模型為多個類型資料的模型組合，
例如畫圖AI包含自然語言模型(文字判斷模型)、圖片處理模型兩大類。

目前的AI模型製作流程是
準備資料＞訓練＞模型部屬＞得到一個一般人認知的模型(AI)如下：
F(x)=y

F() 是已經訓練完的模型
X 是你輸入的值 (畫圖AI是文字)
Y 是你得到的結果(畫圖AI是圖片)

ಠ_ಠ

1 years ago

所謂的AI模型(上面以函數舉例的那個東西)在使用時已經是訓練完成的狀態，也就是說無論你反覆輸入甚麼內容，
他並不會再次被訓練，常有人笑說「AI學會了XXX」其實是背後的工程師主動更新模型的結果，也就是新版本。

「訓練模型」是寫好架構後，給予模型「準備好的資料」，後得到想要的結果。
準備好的資料可以是文本、圖片、影片、語音，而這個資料庫是訓練模型的工程師準備的。

ಠ_ಠ

1 years ago

說了這麼多，想要表達的重點有兩個：
1.你輸入給AI的東西不會讓他「學」到新東西
2.準備的資料如果侵權，是可以提告的，FB/google...等等大公司都有因此被提告且賠款過。

雖然目前各個國家都沒有對此設立特別的條款，但是這件事情本身與其說是某些網民說「繪師情緒勒索AI」
其實更貼近「有某一財團(或一群工程師)未經授權盜用別人的圖片作為訓練素材」這件事情本身是違法的。

Danbooru本身就是盜版網站，此風不可漲。

立即下載

bee8182

1 years ago

學廢了

clam6743

1 years ago

希望那些覺得又不能反推原圖/不能直接看出參考那些原圖不是侵權的人都能看到這篇
並不是過程與結果的問題，是源頭資料有沒有授權啊

python9500

1 years ago

所以他只能學已經出現過的東西而無法創新

ant91 說

1 years ago

ಠ_ಠ: 第二點也要看侵的是什麼權吧有哪些單純因為 trainning data (沒有包含PII的，有的話是另一回事) 被告成功的例子嗎

lord7604

1 years ago

現在就差有人告下去了來讓法律界趕緊立法or修法的例子了

台灣只要有人告下去還告成功就可以解決這場AI之亂了，至少台灣這篇看有沒有辦法立相關規範就可以了

pita2619

1 years ago

想問一下AI模型在訓練階段時的運作方式大概是什麼樣子ㄚ？訓練資料是工程師們先處理過（？）在餵給AI還是...呃AI有主動獲取的能力？
（不太懂這方面知識，求解惑

lord7604

1 years ago

彩現 - 維基百科，自由的百科全書不管甚麼機械，都是要給他灌程式或是灌例子下去才能跑出一樣的東西或是當資料庫

python9500

1 years ago

pita2619: 要先餵資料現在科技應該還沒那麼進步吧？

pita2619

1 years ago

python9500: 哦哦感謝
因為看到很多人拿人類參考學習繪師作品來替AI學習辯護，我還以為Ai已經進步到主動學習的程度了

vodka7944

1 years ago

輸入給 AI 的東西如果被該公司儲存起來，就能之後讓AI學到東西了吧

vodka7944

1 years ago

而且實際上也有 online learning 的 AI 是可以一直透過輸入學習的

vodka7944

1 years ago

像是之前不是有個公司推出會不斷學習的 chatbot 結果一下子就被網友教壞，緊急下架

vodka7944

1 years ago

pita2619: 人類繪師也是看過大量繪圖作品才學會繪圖，跟 AI 餵資料確實也差不多

clam6743

1 years ago

又要出現AI歧視論了嗎

owl9665

1 years ago

vodka7944: 人類藝術的特性就是不穩定。精神狀態與身體狀態會影響結果。ＡＩ則是過度穩定而缺乏變化創新能力。但閱覽者分不出來ＡＩ或人類畫的圖像，覺得不分軒輊是圖像資料讀得不夠多則是肯定的。 #誠心的沒有在吐槽

bee8182

1 years ago

vodka7944: 這句「人類繪師也是看過大量繪圖作品才學會繪圖，跟 AI 餵資料確實也差不多」槽點多到不知該如何說起，去研究一下神經網絡再來說差不多吧...這既不懂畫圖也不懂工程wwww

ಠ_ಠ

1 years ago

vodka7944: 確實是有online learning的模型，不過在市面上常見的模型多以固定模型為主，模型跟著軟體更新的案例比較多見。

ಠ_ಠ

1 years ago

python9500: 基本上是這樣沒錯，目前的AI算法都是基於給定的資料訓練的，生成的結果就是資料的大雜燴

ಠ_ಠ

1 years ago

pita2619: 主動獲取資料的能力
e.g. 爬蟲程式

這種程式的功能通常很單一，大部分都不需要用ai算法來做。

以文中提的畫圖模型為例，以我的理解也是沒有ai獲取資料的功能喔！

vodka7944

1 years ago

如果只是要主動獲取資料的話，有些會參考搜尋引擎結果的 chatbot 就算是會主動獲取資料了嗎

jelly3946

1 years ago

https://images.plurk.com/2nXzTxjEce6NKn08shvXsq.jpg

跟人類一樣AI要畫出一個角色一樣要參考那麼多的圖片啊

bee8182

1 years ago

jelly3946: 按照這個邏輯
Siri回答你的問題也要參考很多資料喔，所以你回答數學問題或家人的提問跟siri回答應該也是一樣的吧？
不覺得上面這個問題很奇怪嗎www ai模型學習跟人腦思考學習這兩種東西根本就兩個完全不同的概念，幾乎沒有能類比的部份，硬要這樣說就完全說不通阿。

bee8182

1 years ago

而且上面jelly貼的這張圖更是顯示出了這個問題，參考不等於組合肉，但ai目前仍舊屬於高階組合肉。
這就是了不了解畫圖的部份了。

vodka7944

1 years ago

重點不是思考過程有沒有一樣，而是參考學習這件事，不管是人類還是 AI 來做，都不太算是侵權，除非直接複製貼上那才算侵權

owl9665

1 years ago

jelly的例子⋯⋯ai參考的圖片應該不只於這個數量吧？這個參考是人類的參考方式喔。AI是這樣學習嗎？

ramen7155

1 years ago

可是即使使用者丟的圖不會立刻成為訓練資料，還是可以在網站條款上寫任何上傳的圖片都等於同意另作他用（工程師挑著餵）吧
如果我是站方我就會這麼做

bee8182

1 years ago @Edit 1 years ago

vodka7944: AI不會「來做」，而是由工程師給他可能受目前智慧財產權保護的版權資料給他阿，這難道不是這噗的重點

pita2619

1 years ago

vodka7944: AI的參考學習和人類的參考學習不一樣，AI的參考學習有侵權的問題ㄛ，建議可以使用一下Google

bee8182

1 years ago

ramen7155: 可以，但這就是另外討論的議題了，那個是平台規範的部份。
噗首的Novel AI用的是一個完全盜版並不是繪師自行上傳而是經過盜用類似於海盜灣的網站的資料。

jelly3946

1 years ago

人類也是看這些圖片來思考往後擺的手怎麼畫的啊，如果不跟你說中間是AI，然後說她抄襲，你一定會護航說這種姿勢本來都都差不多啊，例如除了AI外其他幾張圖的姿勢根本大同小異

bee8182

1 years ago

人類學習不一定是抄襲，但AI學習(如果沒有取得授權)則必定是抄襲，只是抄多少，且放入的那個過程就已經是侵權行為了，只是如何維權而已。

bee8182

1 years ago @Edit 1 years ago

jelly3946: 人類創作跟AI創作或者人腦跟AI本質就是不同的，不懂機器學習或者不懂畫圖的人肯定都覺得差不多確實也無可厚非，把這兩者瘋狂放在一起抽換概念並不會讓這整件事情看起來更合理。
在說出這種話的同時也許可以先去試著問問看繪師都是如何學習並且完成作品的。

ant91

1 years ago

bee8182: "放入的那個過程就已經是侵權行為" 不要太武斷喔日本最近才為了更方便讓機器學習修法過 [討論] 日本律師：AI仿畫合法單方面禁止無效

jelly3946

1 years ago

ant91: 也不是修法吧，只是沒法管而已吧，至少內文沒提到修法

bee8182

1 years ago

ant91: 法規當然是因地區/平台而異，但這噗討論的是danbooru上面也說了，是盜版網站。
且我的說法是「侵權」不是「違法」

litchi6242

1 years ago

bee8182: 學過神經網路也會畫圖覺得vodka 理解沒有什麼不對啊wwwAI繪圖真的不是高階組合肉欸

ant91

1 years ago

jelly3946: 是修法那篇沒提到而已我找到其他地方有介紹了

日本新修正著作權法鼓勵AI發展 - 臺灣人工智慧行動網 Taiwan AI Wise Agent Net...

ant91

1 years ago

bee8182: 如果你要討論侵權使用的話那也要先定義是什麼權吧著作權範圍也是法律訂的

pepper8152

1 years ago

我以為AI模仿的部分是人類創作從資料收集→理解→歸類、分析→產出的階段，只是他是用程式碼寫出來去跑這個過程

ಠ_ಠ

1 years ago

個人認為ai 模型就是極致的組合肉啊，所有的資料都是基於人們的活動資料，生成出來的結果都是接近於訓練資料的分佈，我想不到有什麼部分是原創的。

ant91

1 years ago

ಠ_ಠ: 幾個參數調一下不要那麼 overfitting 就原創了啊

ant91

1 years ago

說到底這次NovelAI會突然被這麼多人討論就是因為他故意保留這些主流畫風吧xd

salmon6685

1 years ago

卡

pepper8152

1 years ago

ಠ_ಠ: 「天下文章一大抄」我突然想到這句話XDDDDD

ಠ_ಠ

1 years ago

pepper8152: AI做的感覺上更像是輸入高維度的訓練資料，然後模型模擬出某一個沒見過的維度數據，而這個數據雖然不直接存在於這個資料集，但結果本身是與訓練資料高度相關的。
應該跟我們口語上「理解」一詞的概念相差蠻大的。

ಠ_ಠ

1 years ago

生成的結果是不會離開原本資料的分佈空間

pepper8152

1 years ago

ಠ_ಠ: 那我有點好奇，AI作畫是否能稱為畫匠?

pepper8152

1 years ago

比如說某些技巧成熟，經由師徒傳授學會了某些畫風，但永遠只會畫他熟悉的題材與風格，說原創也是原創，但你要說不是原創好像也沒錯

ಠ_ಠ

1 years ago

ant91: 調幾個參數並不會解決資料源頭的問題，就像是並不會因為某個人生出來的寶寶是畸形兒，寶寶就不是他的兒子了一樣。

而且overfitting的觀念是模型過擬合，據我所知訓練不夠的模型應該是不會被發布在正式環境的。

giant2965

1 years ago

如果去算迪士尼/三麗鷗/任天堂的圖不知道會告誰

bee8182

1 years ago

giant2965: 大部分都有ban關鍵字包含錫鏡平

pepper8152

1 years ago

另外是，我有點好奇，就是如果去分析人類的創作物，會不會也發現有很多作品其實也會是「而這個數據雖然不直接存在於這個資料集，但結果本身是與訓練資料高度相關的。」這樣的狀況，就像一個創作者的作品永遠都有老師、啟蒙者或派別的影子

ಠ_ಠ

1 years ago

對我來說創作的意思是，你學習並且挑選喜歡的元素進行組合之後用你的方式傳達給觀察者，這些元素是可以重複出現、使用、變通且為你所想表達的內容或故事而轉化的。

目前的模型並不具備這樣的能力，模型不會知道結果的意涵，更遑論讓人類來解釋結果。

關於畫匠，我想就算是漫畫幫忙貼網點跟上墨色的畫手應該多少都會有那麼一點自己的念頭是可以被看出來的吧，
聽說某些漫畫家的助手也可以被書迷認出，如果這個交給AI來做大概就沒有這種事情了。

pepper8152

1 years ago

ಠ_ಠ: 我可以理解了，就是現在的AI還沒有辦法自己想給別人看什麼，所以無法呈現在作品上呈現創作該有的主動性，所以無法歸納為原創，所以真要說，其實AI畫作更接近流水線的量產畫作，看不見創作者本身想傳達什麼

ಠ_ಠ

1 years ago

個人不是很建議把人類跟ai 做比較，以目前的技術來說還太早了點！

我認為ai的角色更像是高階輔助工具，能達到的結果大概是平均人的水準，可以輔助人們的一些重複工作，像是google翻譯就是個很好的例子，你不會期望他是個很好的即時口譯員，或是可以翻譯複雜的文章，但是拿來日常輔助翻譯用還是堪用的！

pepper8152

1 years ago

ಠ_ಠ: 因為我覺得其實還是要弄清楚到底所謂人類的原創、藝術的概念與過程是什麼，才有辦法比較貼近去討論AI畫作到底要算什麼的問題，所以才會使用「這樣的過程與結果，在實際人類創作過程會是什麼狀況」去比較這樣。但我也同意其實AI現在還是一種輔助工具，單就AI畫作的結果還是需要人來說明創作理念，就覺得AI畫作其實還是人的作品

pepper8152

1 years ago

就算是一個想要流量所以選用主流畫風+熱門題材畫出來的色圖，的確是可以感受到想要讚數跟流量的企圖心，但是AI畫出來的其實代表的是key關鍵字的人的企圖心

giant2965

1 years ago

bee8182: ~~人類不是最擅長替換詞句跟鑽漏洞嗎XD~~

是說以前有看過一個AI學習的紀錄過程文，好像是狼要吃兔子還是羊，從一開始的抓不到到後來可以用最短距離抓到，這是不是才算AI學習？

clam6743

1 years ago

該把繪圖AI丟去做圖靈測驗了

owl9665

1 years ago @Edit 1 years ago

我覺得有些人一直在試圖把AI繪圖同等於使用繪圖軟體。
除了兩者使用方式差距甚遠，
光是使用photoshop盜他人圖片剪接殺肉合成的侵權問題已經有多少前例判定成案，只要反轉繪圖分析參考使用圖片的解析技術能力也相對提升，盜圖的事實還是原原本本的被掀出來，依舊能進法院。
所以想要安全使用並讓AI繪圖有普遍的使用市場，最好還是只能使用付費並連結合法資料庫的AI繪圖.
花錢去買下使用授權，讓該得到利益的人均分利益

我是很想知道這樣使用費照實算下來多少人會用就是了

onion6442

1 years ago

大概會像音樂/影音串流平台或走類似likecoin那種路線吧

owl9665

1 years ago @Edit 1 years ago

終究就是
「畫風借你沒問題但你要分我多少」
或者「你要讓畫風創造者活的肥滋滋還是嘴上說愛但當人免洗的」
這跟AV看正版還是盜版是同個道理，不管你多愛女優，番號整理多清楚，你只要一毛錢沒流向原本製作公司跟辛苦的女優們，盜竊的事實依舊存在。

earth536

1 years ago

好奇我平常在網路上逛到一些不認識的繪師作品，覺得他們某些畫法或畫風很棒，把圖存下來偷偷學習，我也沒有付他們錢

earth536

1 years ago

這樣是犯法的嗎

shabu8753

1 years ago

所以其他噗說的深度學習，ai會自學是錯誤的嗎

vodka7944

1 years ago

人類的原創實際上還不是跟現存的圖畫有很多類似相同的地方。硬要說人類就是原創、AI就不是，根本不是因為有很好的邏輯可以證明，而只是單純人類至上論吧。

vodka7944

1 years ago

而且實際上這波 AI 生出來的圖搞不好之前根本沒有人畫過，比如說像是太空人騎馬，或者是酪梨躺椅。並不覺得在 AI 畫出來之前有人想過。

眼見為憑時代過去了？有了AI 畫圖神器，網路上看到的東西也不能信了

shark4726

1 years ago

vodka7944:
太空人騎馬覺得比較像是排列組合，很像以前創意課程會做的練習，垂直、水平思考之類的
但好奇AI未來的極限會在哪裡? 例如之後技術是否能創造一個全新的畫風，創造AI畢卡索

onion6442

1 years ago @Edit 1 years ago

最近看下來好像有些人理解中AI產出的圖就是取A繪師、B繪師、C繪師的各一部分組合成的圖

有些AI的確是用一張圖當基底去生成細節，但大部份被說成"拼貼"或"合成"的AI產圖不是只是把ABC拆散再重組而已耶，是從A～Z（看給多少資料就有多少）運算出一個中間值（可以理解成這些圖中最貼近人類審美或是最符合使用者描述的句子）融合這些再生成最接近這些集體的樣子

會用人類學畫來類比只是因為比較好理解

shark4726

1 years ago

earth536:
如果該繪師的作品是要付費的，而存盜版的圖或漫畫，應該就有問題了，就是下載盜版

而Novel AI爭議就在於此，它用的圖來源是盜版，而且記得Novel AI使用還有收費的

bee8182

1 years ago

earth536: 「好奇我平常在網路上逛到一些不認識的繪師作品，覺得他們某些畫法或畫風很棒，把圖存下來偷偷學習，我也沒有付他們錢」
首先你是一個人類，你說的是你要偷偷學習，然後你產出的作品理應是會包含你個人的其他學習，如果不是描圖或過度借艦或組合肉，那就不犯法。
如果你描圖，組合肉，那很有可能犯法。
但是就像噗主說的一樣，AI模型並不是我們認知的人類學習，因為AI學習中並不能夠「選擇跟原圖完全不一樣」極高機率有可能跑出一個正常人類判定為同一張圖不同風格的那種狀態，現在大家覺得AI畫圖看起來很厲害是因為他參考的是上百萬張的圖片，而一般人類沒有辦法同時做到參考這麼多張，當然AI有更多組合的可能性，但終究算出來的寶寶不會離開原始的資料庫，只是資料庫很大，讓很多眼界很小的人覺得很厲害而已。

bee8182

1 years ago

shark4726: 推推

bee8182

1 years ago @Edit 1 years ago

vodka7944: 如果你有玩過目前的AI畫圖軟體，你提到的那幾張圖的模型類型都是都是由「人類」輸入文字進模型之後的結果，所以具體來說是人類想出來的不是模型「想」出來的。
然後你說的酪梨椅子或太空人騎馬，那就是從一堆data set裡面弄出一隻馬跟一個太空人而已。
我其實去查了一下酪梨椅子跟太空人相關的內容都是網路農場文，如果只是看標題估計會有很多人被誤導，順帶一提現在很多農場文也是AI模型生成的。
你傳的那篇內容其實也蠻詳細的，作為給不懂作畫或模型的人可以初步了解目前這項技術的發展，其中這段比較接近這噗討論的議題

https://images.plurk.com/30lEOR258srx73gAPhoR9Q.png

bee8182

1 years ago

截圖中提到「乾淨的」資料集，是人類定義的乾淨，是需要合法且非侵權的版本的資料集，這應該也是噗主想要討論的重點。

lord7604

1 years ago

ಠ_ಠ - AI繪圖這種目前無法可管的灰色地帶如果要把他變成現有的合法範圍大概是某家AI繪圖廠商跟一...那只能大公司自己請繪師自己開了，現在大企業還不敢商業下場啦，只能背後偷偷研究

等到風向正確才會放出來吧

owl9665

1 years ago @Edit 1 years ago

earth536: 其實公開不是問題,誠實告知學習模仿那些作者，是良心模仿。比如大衛像的石膏像翻模是為了美術學習之用，學生的習作不會破壞原作，被評論的也只有技巧，最大的市場價值是被教課書當成範本。
#學術使用範圍
學習目的，也就是在作者同意的約定範圍，或是作者理解是粉絲支持非有意侵權的 #曖昧範圍內，通常不會有事

重點是「 #盜名」「 #商業使用」

puppy6358

1 years ago

好奇噗主說的多模態模型是所有畫圖AI都是這個嗎?在別串有看到擴散模型的詞不知道是什麼意思，兩個是一樣的東西嗎

ಠ_ಠ

1 years ago

概念不一樣，多模態就是多種模態資料而已，同時可以處理文本、圖片不同模態資料的模型。
擴散模型是一種生成模型，因為這個就需要更多的先備知識才能討論比較深，當初打上面的文章的時候主要是希望給完全沒概念的網友看懂而已。
理解扩散模型Diffusion Models（一）

puppy6358

1 years ago

那噗主說畫圖AI屬於多模態模型是指噗首那個AI還是所有AI都是?

ಠ_ಠ

1 years ago

像我可以輸入文字來生成圖片的這種，就算是多模態模型