※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1712216546.A.832.html
→ medama: 看不懂 04/04 15:44
推 wenku8com: 難怪龍王的工作會說人類很難理解AI的下法 04/04 15:48
→ wenku8com: 但只要成功學會AI的下法就能幹爆所有人 04/04 15:48
推 lightdogs: 其實跟跑模擬有點像 參數有一定經驗參考性 但為什麼是 04/04 15:51
→ lightdogs: 這個參數才能跑出吻合實驗的結果 不知道 04/04 15:51
推 killerj466v2: 也就是說過去的方法 是在人類能理解的情況下 04/04 15:52
→ killerj466v2: 用窮舉法硬幹 04/04 15:52
→ peterturtle: 實質上仍然是一種求最大勝利期望值的方法,差別在於 04/04 15:53
→ peterturtle: ,這種方法代表人類放棄控制電腦的思考方式,而是把 04/04 15:53
→ killerj466v2: 但狗狗的方法,是用一套多重參數疊加下的最佳路徑 04/04 15:53
→ peterturtle: 所有不管有沒有用的變數都灌進去然後讓電腦自己去撞 04/04 15:53
→ peterturtle: 牆,最終頭破血流的電腦有機會找出一個 It Just Work 04/04 15:53
→ peterturtle: 的結果。 04/04 15:53
→ killerj466v2: 而這多重參數無法用人類下棋的方式理解 04/04 15:54
推 lightdogs: 其實訂立獎勵機制應該算最重要的一部分 很多設計模擬 04/04 15:56
→ ZMTL: 以這篇玩紅版,就是想辦法引導出能玩遊戲的參數吧,AI會慢慢 04/04 15:56
→ lightdogs: 也是用這種方式去做優化 但神經網路目前的問題是 模擬 04/04 15:56
→ lightdogs: 能用物理及數學公式解釋這樣的設計結構 但神經網路的 04/04 15:56
→ lightdogs: 那些參數是真的無法理解的一堆參數 04/04 15:56
→ ZMTL: 找到該怎麼做,但推文的暴力破解感覺就跟猴子沒兩樣只是可以 04/04 15:57
→ ZMTL: 很多很多 04/04 15:57
推 Nitricacid: https://i.imgur.com/ZEYajIF.jpg 04/04 16:00
推 none049: 問題在「來路不明的參數」是怎麼生出來的吧? 04/04 16:00
→ Nitricacid: 恭喜各界精英理解了碼農們的生活 04/04 16:01
→ peterturtle: 這個方法除了讓人因人腦的極限感到挫折之外其實蠻有 04/04 16:01
→ peterturtle: 效的,而之所以叫類神經網路是因為我們大腦裡也幹著 04/04 16:01
→ peterturtle: 差不多的事情:能用的迴路強化、沒用的迴路消失掉, 04/04 16:01
→ peterturtle: 而等到我們年老大腦神經元增生速度趨緩、舊有迴路也 04/04 16:01
→ peterturtle: 被強化過頭時就很難學新東西了。 04/04 16:01
推 lightdogs: 來路不明的參數是藉由獎勵機制去做變化的 但問題是我 04/04 16:03
→ lightdogs: 們不知道這些參數的變化到底代表什麼 04/04 16:03
→ none049: 如果這種可以幹爆人類的參數其實也是訓練出來的 04/04 16:03
→ none049: 那也只是等於用人類辦不到的實戰訓練以結果篩選出一個 04/04 16:03
→ none049: 教不了人也不知道該怎麼解釋自己招式的我流棋士? 04/04 16:03
→ lightdogs: 可以這麼說 他就是全憑直覺去下棋還屌打棋王得人 04/04 16:04
→ peterturtle: to none 意思差不多 04/04 16:05
→ kirimaru73: 開發現代圍棋AI有一個很重要的差異 就是人類放棄去思 04/04 16:05
→ kirimaru73: 考「圍棋要怎麼下」這件事情,因為數學上已經證明你就 04/04 16:05
→ kirimaru73: 就是沒有那麼高的複雜度去思考,科技在強也不行 04/04 16:06
→ kirimaru73: 所以人類就告訴模型 我不去管圍棋的事了 幹爆對面就好 04/04 16:06
推 none049: to以前的AI:身為你的人類老師,我要你理解這些 04/04 16:07
→ none049: to現在的AI:不用理解,去感覺吧! 04/04 16:07
→ peterturtle: 而就在這個莫門AI統治人類的可能性誕生了 www 04/04 16:07
→ kirimaru73: 雖然原文是寶可夢,但這方面也是一樣 04/04 16:10
→ kirimaru73: 人類壓根就沒有想教AI「怎麼」玩寶可夢 04/04 16:10
→ kirimaru73: 人類只是想教AI「會」玩寶可夢 然後他就會了 04/04 16:10
推 lightdogs: 而且基本上都是從獎勵機制下手 死掉一個寶可夢 bad -1 04/04 16:13
→ lightdogs: 分 升級了 good +1分 然後這種機制其實對扣分更敏感 04/04 16:13
→ lightdogs: 所以設立錯誤的話會發現ai卡住 因為他完全不敢去做會 04/04 16:13
→ lightdogs: 扣分的事 04/04 16:13
→ kirimaru73: 很多玩遊戲的強化學習都會有一個非零參數 04/04 16:13
→ kirimaru73: 活著什麼都不動每frame扣多少分 04/04 16:13
→ lightdogs: 某方面來說跟人類大腦運作機制真的很類似 04/04 16:13
→ kirimaru73: 因為不加這個很容易卡住 04/04 16:13
→ kirimaru73: 一個趣談 人類一開始養阿法狗時有灌輸人類圍棋知識的 04/04 16:14
→ kirimaru73: 最高結晶 結果養出來的這條爛狗竟然還被李世石一比四 04/04 16:14
→ lightdogs: 對 譬如說最簡單的乒乓球或者flappy bird 04/04 16:14
→ kirimaru73: 後來人類撤除了所有圍棋的文化,狗就六十比零了 04/04 16:15
→ lightdogs: 那就是alphago 跟alphago zero 的差別了 04/04 16:15
推 staristic: 古力:原來在神乎棋技的路上我是多餘的 04/04 16:16
→ lightdogs: 加強式學習是我覺得最沒效率的精神網路 但只要時間夠 04/04 16:18
→ lightdogs: 長 運算效率夠快 它又是表現最好的 但又因為前期的低 04/04 16:18
→ lightdogs: 效率實在難以評估獎勵機制的優劣 所以很不適合自己研 04/04 16:18
→ lightdogs: 究 04/04 16:18
→ kirimaru73: 加強式學習的最強王牌:不用微分也能訓練 04/04 16:21
→ kirimaru73: 但是掏出這張王牌之後就是獎懲函數的責任了 04/04 16:21
→ kirimaru73: 不用微分的意思就是我他媽真的什麼都能學,甚至連交友 04/04 16:25
→ kirimaru73: 感情外交戰爭都可能學得會 但是我說那個獎懲函數呢 04/04 16:25
推 lightdogs: 不知道 天上會掉下來吧?ww 04/04 16:26
→ lightdogs: 從一個玄學進到另一個玄學 04/04 16:26
→ kirimaru73: 自駕車研究的地獄笑話: 04/04 16:27
→ kirimaru73: 你是強化學習工程師,請問撞死一個小孩扣多少分? 04/04 16:28
推 lightdogs: xddd 04/04 16:28
推 csvt32745: 硬train一發.jpg 04/04 16:40