Re: [分享] 用寶可夢紅版示範AI的機器學習

看板	C_Chat
作者	kirimaru73 (霧丸)
時間	2024-04-04 15:42:24
留言	74則留言 (13推 0噓 61→)

看板C_Chat

嘗試解釋一下過去的AI和現在的AI，在「暴力」這方面本質上的差異過去以暴力幹爆人類的棋類AI中，最有名的就是深藍我們假設現在要請深藍用同樣的方法，嘗試在圍棋上幹爆人類那麼所謂的「暴力求解」大概可以形容成這樣：深藍：我執黑，現在輪我下棋棋盤上一之一是空的，我可以下這邊（如果不能下就跳過）如果我下在一之一，對手接下來會下任何一個他可以下的點如果他下在Ａ之Ｂ會得到最大的優勢棋盤上一之二是空的，我可以下這邊如果我下在一之二，對手接下來會下任何一個他可以下的點如果他下在Ｃ之Ｄ會得到最大的優勢 ... 直到把整個棋盤輪完一遍，每個地方對手都有一個「獲得最大優勢」的選項而正常的AI沒事不會放水，也不會假設對手是白癡他會假設對手永遠都盡力表現，但是我還是要幹爆他所以最後他會選擇一個「就算你表現再好，上限也最低」的著手到這裡就是賽局理論中一個最粗糙、最暴力的決策樹模型以圍棋來說，可以想像這個模型相當的巨大理論上和實作上還有很多可以簡化（更傳神的用語稱為「修剪」）這顆決策樹的方法有些是能用數學證明很完美的，有些是犧牲準確度換取效率的不同主題的研究者會因為遊戲性質的不同，而採取各自理想的策略另外還有一個嚴重的問題，AI下一顆，對手下一顆，接下來要判斷對手有多少優勢可是圍棋的勝負，可能是在後面一百多顆的戰鬥中才決定的雖然有所謂「形勢判斷」的技術（僅從現在的盤面估算雙方的目數差異）但那終究只是個估算，而且要讓AI具有可靠的估算能力，又會變成另一個難題這裡先偷跑一下，借用阿法狗介紹文中總是會出現的蒙地卡羅方法如果我不知道現在這個場面到底是哪邊比較好，那我就從現在這個場面開始請兩個實力都很不錯的AI往後下個一千盤，看看哪邊爆掉比較多次就知道了我不確定前阿法狗時代的圍棋AI有沒有用這種方法來進行估算不過在電腦與顯示卡的算力爆發之前，就算真的能用，效率應該也不佳除了計算量以外，光是去找「兩個實力都很不錯的AI」就是一大問題了總之，過去的圍棋AI有這些手段能用，以及一大堆竭盡所能提高效率的策略最好的成果大概能跟業餘棋手玩玩，對於中階棋手可能還具有不少挑戰性不過面對職業棋手了不起就是被讓四～六顆，然後看看在爆掉之前能撐多久接下來要進入阿法狗了，阿法狗那絕妙的圍棋演算法大概是：（我的形容還是會簡化很多很多，不過重點是和過往在「暴力」上的差異）將二十五個參數排成5x5方陣的形狀阿法狗不想解釋這二十五個參數是哪來的，但主人把他推出去比賽時已經幫他填好了把一之一～五之五的5x5區域框起來，把黑棋當作+1，白棋當作-1，空白當作0 將每個數字都乘上方陣中對應位置的參數，結果全部加起來，記在一張表格的角落把一之二～五之六的5x5區域框起來，把黑棋當作+1，白棋當作-1，空白當作0 將每個數字都乘上方陣中對應位置的參數，結果全部加起來，記在前一個數字的旁邊 ... 把整個棋盤都跑過一遍後，表格上就會有一堆計算好，同樣排成方陣的數字先把這張表格放在一旁，掏出另外二十五個排成5x5方陣的參數出來同樣的，阿法狗也不知道他們是怎麼來的，總之就是已經填好了重複一次同樣的流程後，因為第二組參數和第一組不同，所以會產生另外一張表格這些表格雖然也差不多是棋盤的規模，但因為用來乘的數字可以是任意範圍所以他們的內容已經無法用任何圍棋知識去理解了現在阿法狗的腦內有一大堆數字了，接下來他要做一件很重要的事情：對這些表格上的數字執行同一種「粗暴動作」最簡單的一種粗暴動作就是把所有負數變成０，正數保留原本的值這個動作其實非常關鍵，但不適合在我這篇文章內說明關鍵的原因想知道為什麼的讀者可以參考這個教學影片： https://www.youtube.com/watch?v=bHcJCp2Fyxs

接下來，阿法狗會掏出更多來歷不明的參數然後把先前計算得到的數字，和這些參數依照特定的規律兩兩相乘再重複相加取總和，執行粗暴動作等流程，得到更多新的表格類似的步驟會重複很多輪，這些表格排列而成的結構就是所謂的「深度」最後會計算出到一張和棋盤一樣大的表格，每個位置各有一個數字接下來，阿法狗照著最大的數字所在的位置下棋，然後人類就被幹爆了這些「來路不明的參數」就是阿法狗的腦袋除去這些參數的數值變化，參數要怎麼使用的規則其實是完全固定的所以如果參數全部亂填，那這個阿法狗可能就是個白癡實際上，如果隨機產生100000000隻這種阿法狗，那100000000隻應該都是白癡不過人類就是有辦法找到一組參數，讓這隻狗贏了李世石四盤尋找這些參數的方法其實也不是完全的暴力，因為這複雜度其實比圍棋棋盤還要高這方面的技術屬於數學上最佳化的主題，還是有許多明確的方向可尋為什麼在某種特定層層相疊的使用規則下，一組好的參數就能幹爆人類？這是類神經網路上一個無解的問題，目前沒有辦法給出明確的原因只有「這結構就是模擬人類大腦運作原理，所以他可以很厲害」這種解釋方法實際上這結構早在1940年代就被提出，1970年代就有人實作過不過在顯示卡能力提升，深度學習崛起之前在計算量上的巨大門檻，往往讓其淪為吃飽太閒的等級如果將過去的AI和現在的AI進行類比，可以發現這樣的相似性：過去的AI：有天文數字種下棋的方法，找出一種最好的棋路現在的AI：有天文數字種參數的組合，找出一種最好的參數這兩者之間當然有許多差異，但其中有一種最為明顯：過去的AI雖然在「找出最佳棋路」這件事上很辛苦但是他所尋找的標的，是一個人類在圍棋規則內完全能看得動的棋路現在的AI所尋找的標的......如果我在十幾年後被打臉就算了不過我現在至少敢說，這他媽是什麼東西人類永遠都不可能看懂然而，雖然人類看不懂參數本身，但是人類知道一件事實就是這種模型在幾乎任何競爭類的主題上，都能明確地幹爆人類（創作方面的問題還有點爭議，至少幹爆龍宮有點困難）在許多的成功案例出現後，現代AI技術就開始爆炸性的加速發展了 --

※ 批踢踢實業坊(ptt.cc), 來自: 123.240.232.168 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1712216546.A.832.html

→ medama: 看不懂 04/04 15:44

推 wenku8com: 難怪龍王的工作會說人類很難理解AI的下法 04/04 15:48

→ wenku8com: 但只要成功學會AI的下法就能幹爆所有人 04/04 15:48

推 lightdogs: 其實跟跑模擬有點像參數有一定經驗參考性但為什麼是 04/04 15:51

→ lightdogs: 這個參數才能跑出吻合實驗的結果不知道 04/04 15:51

推 killerj466v2: 也就是說過去的方法是在人類能理解的情況下 04/04 15:52

→ killerj466v2: 用窮舉法硬幹 04/04 15:52

→ peterturtle: 實質上仍然是一種求最大勝利期望值的方法，差別在於 04/04 15:53

→ peterturtle: ，這種方法代表人類放棄控制電腦的思考方式，而是把 04/04 15:53

→ killerj466v2: 但狗狗的方法，是用一套多重參數疊加下的最佳路徑 04/04 15:53

→ peterturtle: 所有不管有沒有用的變數都灌進去然後讓電腦自己去撞 04/04 15:53

→ peterturtle: 牆，最終頭破血流的電腦有機會找出一個 It Just Work 04/04 15:53

→ peterturtle: 的結果。 04/04 15:53

→ killerj466v2: 而這多重參數無法用人類下棋的方式理解 04/04 15:54

推 lightdogs: 其實訂立獎勵機制應該算最重要的一部分很多設計模擬 04/04 15:56

→ ZMTL: 以這篇玩紅版，就是想辦法引導出能玩遊戲的參數吧，AI會慢慢 04/04 15:56

→ lightdogs: 也是用這種方式去做優化但神經網路目前的問題是模擬 04/04 15:56

→ lightdogs: 能用物理及數學公式解釋這樣的設計結構但神經網路的 04/04 15:56

→ lightdogs: 那些參數是真的無法理解的一堆參數 04/04 15:56

→ ZMTL: 找到該怎麼做，但推文的暴力破解感覺就跟猴子沒兩樣只是可以 04/04 15:57

→ ZMTL: 很多很多 04/04 15:57

推 Nitricacid: https://i.imgur.com/ZEYajIF.jpg 04/04 16:00

推 none049: 問題在「來路不明的參數」是怎麼生出來的吧? 04/04 16:00

→ Nitricacid: 恭喜各界精英理解了碼農們的生活 04/04 16:01

→ peterturtle: 這個方法除了讓人因人腦的極限感到挫折之外其實蠻有 04/04 16:01

→ peterturtle: 效的，而之所以叫類神經網路是因為我們大腦裡也幹著 04/04 16:01

→ peterturtle: 差不多的事情：能用的迴路強化、沒用的迴路消失掉， 04/04 16:01

→ peterturtle: 而等到我們年老大腦神經元增生速度趨緩、舊有迴路也 04/04 16:01

→ peterturtle: 被強化過頭時就很難學新東西了。 04/04 16:01

推 lightdogs: 來路不明的參數是藉由獎勵機制去做變化的但問題是我 04/04 16:03

→ lightdogs: 們不知道這些參數的變化到底代表什麼 04/04 16:03

→ none049: 如果這種可以幹爆人類的參數其實也是訓練出來的 04/04 16:03

→ none049: 那也只是等於用人類辦不到的實戰訓練以結果篩選出一個 04/04 16:03

→ none049: 教不了人也不知道該怎麼解釋自己招式的我流棋士? 04/04 16:03

→ lightdogs: 可以這麼說他就是全憑直覺去下棋還屌打棋王得人 04/04 16:04

→ peterturtle: to none 意思差不多 04/04 16:05

→ kirimaru73: 開發現代圍棋AI有一個很重要的差異就是人類放棄去思 04/04 16:05

→ kirimaru73: 考「圍棋要怎麼下」這件事情，因為數學上已經證明你就 04/04 16:05

→ kirimaru73: 就是沒有那麼高的複雜度去思考，科技在強也不行 04/04 16:06

→ kirimaru73: 所以人類就告訴模型我不去管圍棋的事了幹爆對面就好 04/04 16:06

推 none049: to以前的AI：身為你的人類老師，我要你理解這些 04/04 16:07

→ none049: to現在的AI：不用理解，去感覺吧！ 04/04 16:07

→ peterturtle: 而就在這個莫門AI統治人類的可能性誕生了 www 04/04 16:07

→ kirimaru73: 雖然原文是寶可夢，但這方面也是一樣 04/04 16:10

→ kirimaru73: 人類壓根就沒有想教AI「怎麼」玩寶可夢 04/04 16:10

→ kirimaru73: 人類只是想教AI「會」玩寶可夢然後他就會了 04/04 16:10

推 lightdogs: 而且基本上都是從獎勵機制下手死掉一個寶可夢 bad -1 04/04 16:13

→ lightdogs: 分升級了 good +1分然後這種機制其實對扣分更敏感 04/04 16:13

→ lightdogs: 所以設立錯誤的話會發現ai卡住因為他完全不敢去做會 04/04 16:13

→ lightdogs: 扣分的事 04/04 16:13

→ kirimaru73: 很多玩遊戲的強化學習都會有一個非零參數 04/04 16:13

→ kirimaru73: 活著什麼都不動每frame扣多少分 04/04 16:13

→ lightdogs: 某方面來說跟人類大腦運作機制真的很類似 04/04 16:13

→ kirimaru73: 因為不加這個很容易卡住 04/04 16:13

→ kirimaru73: 一個趣談人類一開始養阿法狗時有灌輸人類圍棋知識的 04/04 16:14

→ kirimaru73: 最高結晶結果養出來的這條爛狗竟然還被李世石一比四 04/04 16:14

→ lightdogs: 對譬如說最簡單的乒乓球或者flappy bird 04/04 16:14

→ kirimaru73: 後來人類撤除了所有圍棋的文化，狗就六十比零了 04/04 16:15

→ lightdogs: 那就是alphago 跟alphago zero 的差別了 04/04 16:15

推 staristic: 古力：原來在神乎棋技的路上我是多餘的 04/04 16:16

→ lightdogs: 加強式學習是我覺得最沒效率的精神網路但只要時間夠 04/04 16:18

→ lightdogs: 長運算效率夠快它又是表現最好的但又因為前期的低 04/04 16:18

→ lightdogs: 效率實在難以評估獎勵機制的優劣所以很不適合自己研 04/04 16:18

→ lightdogs: 究 04/04 16:18

→ kirimaru73: 加強式學習的最強王牌：不用微分也能訓練 04/04 16:21

→ kirimaru73: 但是掏出這張王牌之後就是獎懲函數的責任了 04/04 16:21

→ kirimaru73: 不用微分的意思就是我他媽真的什麼都能學，甚至連交友 04/04 16:25

→ kirimaru73: 感情外交戰爭都可能學得會但是我說那個獎懲函數呢 04/04 16:25

推 lightdogs: 不知道天上會掉下來吧？ww 04/04 16:26

→ lightdogs: 從一個玄學進到另一個玄學 04/04 16:26

→ kirimaru73: 自駕車研究的地獄笑話： 04/04 16:27

→ kirimaru73: 你是強化學習工程師，請問撞死一個小孩扣多少分？ 04/04 16:28

推 lightdogs: xddd 04/04 16:28

推 csvt32745: 硬train一發.jpg 04/04 16:40

Re: [分享] 用寶可夢紅版示範AI的機器學習

您可能感興趣

熱門文章