Re: [情報] 情報數則

看板	Military
作者	FXW11314 (soukai)
時間	2023-05-09 22:05:28
留言	174則留言 (98推 1噓 75→)

看板Military

給太長直接End的：沒人會用4090 train正經的模型請愛用A100 -------------以下正文--------------- 註：DL是Deep Learning 為了防止有人跟我吵說AI不只有深度學習blablabla 才特別寫明不懂的話直接理解成AI就好原文恕刪先跟原PO道歉我沒有要針對你但我想原PO大概沒有認真搞過DL 有些觀念實在讓我不吐不快雖然我也只是剛剛混了張紙的程度但還是來丟個磚頭有大神看到請小力鞭 BTW我也覺得米帝的制裁力道可以更大但米帝絕不是像原PO說的傻跟笨首先，正經做DL的肯定不是用4090 那種東西愛怎麼賣就怎麼賣即使出了5090、6090 計算性能翻了兩倍三倍也沒關係原因是絕大部分DL的瓶頸都在記憶體主流的DL技術都包含了大量的矩陣運算而矩陣運算的特色就是可以被高度的平行化這也是為什麼沒人用CPU做DL 因為GPU或者ASIC隨便都是幾千個thread在做運算記憶體的限制主要在兩個方面：容量跟頻寬容量的話很簡單爆掉就直接爆掉沒有第二句話有摸過CUDA的話應該知道叫GPU做任何事之前都要先把會用到的東西丟進GPU的記憶體也就是說如果你會用到的東西超過VRAM大小那恭喜你可以討預算升級設備了當年我們菸酒生要開工的時候因為老闆太摳又不想排隊等公用的伺服器所以都自己買一張卡那時都在討論要買3060還是3070 同學的結論是3060因為有12G VRAM 而肥宅我因為貪圖3070提升遊戲FPS的副作用所以還是買了3070 結果就是train彩色圖片的時候就被OOM鐵拳狠狠教訓土豪同學的3080倒是沒問題總之核心不夠力只是慢了點不過還是能算完但VRAM爆了就是爆了所以正經的DL是不會有人拿4090的至少也是V100 32G 好一點的拿A100 40G 更好的拿A100 80G 現在最強的應該是H100吧 80G起跳最大188G 你說能有多少資料實際情況會依設定跟訓練資料不同單純討論模型本身就好給個大概的概念：一個16bit float是2byte VGG16的參數有138 Million(不包含bias或其他optimizer的參數) 那模型本身就要至少276MB 用32bit float就是552MB 而GPT3的參數是175 Billion 16bit存模型本身就超過300GB 32bit就是600GB 至於GPU怎麼塞300GB等等再討論這還只是模型本身喔實際訓練時要的資料運算時需要的記憶體等等都還沒討論有哪些可以看圖 https://imgur.com/g63dyUe (Source: https://reurl.cc/Q4rQQp ) 另一個瓶頸是頻寬話不多說先上圖 https://imgur.com/XmrL54v (Source: https://reurl.cc/7RGxaN ) 前面說過叫GPU做任何事之前都要先把會用到的東西丟進GPU的記憶體而灰色部分是程式在等待資料搬進記憶體佔總執行時間的百分比可以看到mm那根棒棒超過90% mm就是DL一直在做的矩陣乘法這個搬進搬出的速度取決於頻寬給個參考標準： PCIE 5.0 SSD：約12GB/s DDR4：約70GB/s DDR5：約100GB/s RTX3090：936.2GB/s RTX4090：1008GB/s V100S：1134GB/s A100 40GB：約1500GB/s A100 80GB：約2000GB/s H100 188GB：7800GB/s 可以想像頻寬的影響有多大再來談剛剛說了現在一個模型動輒幾百GB 整個train起來可能要幾TB 啊地表最強GPU也才188GB是要怎麼塞答案是把GPU串起來老黃的叫做NVLink 消費級最後支援NVLink的是3090 40系列全部不支援蘇媽的...反正有跟沒有差不多 NVLink可以讓串在一起的GPU共用他們的記憶體串8張A100 80GB就有640GB 可以說做DL生意的沒有不用NVLink的當然這種共用的存取絕對比存取自己的記憶體慢很多基本上現代DL發展的瓶頸就在這裡給個參考數字： V100：300GB/s A100：600GB/s H100 80GB：900GB/s 最後說說米帝幹了啥：限制Nvidia把NVLink的速度降到400GB/s 就這樣所以老黃把A100的NVLink閹了一刀改名A800 然後加價賣為什麼我說米帝不蠢你看他只砍一刀就砍在瓶頸把瓶頸縮得更小在幾乎沒損及美商利益的前提下造成最大的傷害用過CUDA就知道那個生態系有多重要基本上就是GPGPU的windows 你要是全禁了說不定他們自己煉蠱還真的煉出了個什麼來但在有CUDA用的前提下相信我沒有人會想幹自己的幹出來也沒人用大概是這樣下面談談我對原PO論點的看法極權政府確實可以不論效率去幹一件事但請別忘記資源是有限的就AI這塊不精確地說 DL本質上就是在一片無垠的解空間中隨便找個點開始往好的方向走直到你走到你滿意的位置或是走不下去從頭再來當然高手可能每次都走得比你遠而且可能幾次就找到他滿意的位置了啊我們這種廢物就只能多走幾百次這樣但基本上都有丟骰子的成分在硬體效能的意義在於每丟一次要多久而骰子在滾的期間無論你是高手還是廢物都是在等只是廢物如我就直接去玩Switch 高手可能去學校教書或啃paper 於此同時你的對手可能已經滾完了在丟下一次確實多買幾顆骰子可以解決問題但請記得中國在這方面的對手不只是任何一個政府還有IBM、Google、微軟、Meta、Amazon等等科技巨頭更不用說洛馬雷神波音這些牛鬼蛇神 <--- 軍武點(X 這些企業投入的資源可不會比中國政府少更重要的是效率絕對比政府帶頭投入高出幾個數量級還有骰子是那個米帝的特級廚師一家獨大他隨時可以把你的骰子再削一刀 -- 推 Sirctal : 沒看前後文我還以為我在電蝦板 05/09 22:22 [菜單] 習包子大撒B AI深度學習機又不是不能用，但用起來很痛苦推 sas1942 : 看不懂但推+1 05/09 22:25 窩不是業內QQ 不只是速度問題，超過VRAM限制連跑都跑不起來不說了我碩班那種一覺起來發現OOM根本沒跑完的PTSD快發作了其實資料遞送是很多應用的瓶頸，比如遊戲看蘇媽的遊戲U暴力塞cache就知道前輩好先人們生活真的不容易啊據說當年Dean大神是手操32顆CPU自己幹神經網路這篇主要是談訓練，應用面的話不適用所以那位米帝的特級廚師把mellanox給買下來了學術研究的話當然可以也有很多研究是專注在如何不耗用太多訓練資源的前提下去訓練模型但畢竟LLM的爆發告訴我們大力是真的可以出奇蹟的所以不論商場還是戰場都還是在打算力的軍備競賽這是我所謂的正經理解成AI就好跟我的論文一樣欸啊哈哈哈哈嗚嗚嗚嗚...

※ 批踢踢實業坊(ptt.cc), 來自: 125.229.223.90 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Military/M.1683641130.A.6A3.html

推 awhat : 推解釋得很清楚 05/09 22:12

推 TUTOTO : 推 05/09 22:20

推 smallreader : 看不懂但推 05/09 22:21

推 ggeneration : 所以可以說在法條裡寫上這條規則肯定是業內狠角色 05/09 22:22

推 saygogo : 謝謝 05/09 22:23

→ ggeneration : 就跟之前工控機禁運令特意加上數據傳輸限幾十mb一樣 05/09 22:23

推 roseritter : 歐歐歐清楚的科普 05/09 22:26

推 user048288ef: 簡單明了，推 05/09 22:29

推 darkangel119: 我還以為是電蝦版 XD 05/09 22:29

推 mudmud : 推業內解說 05/09 22:29

推 weimr : 推 05/09 22:30

→ alanjiang : 看到4090還以為走錯版XD 05/09 22:31

推 s891510 : 我自己沒做DL 但身邊有做相關的講難聽點就是沒錢才 05/09 22:32

→ s891510 : 去買消費級顯卡不然都會買專用卡不是財大氣粗而 05/09 22:32

→ s891510 : 是真的速度有差 05/09 22:32

推 patrickleeee: 專業推 05/09 22:35

推 Schottky : 我以為我走錯板 05/09 22:36

推 s8626460 : 感謝分享,卡頻寬就好,別人一天可以訓練完的量,阿共 05/09 22:37

推 steelgate : 推真的時間就是金錢而且真的差很多 05/09 22:37

推 ckbling : 有些公司就直接找AMA或是TWCC之類的服務商租算力了 05/09 22:37

→ ckbling : 省事又不用折舊 05/09 22:37

推 LanJiao : 後面那一段同樣道理適用於任何產業沒辦法去市場競 05/09 22:37

→ LanJiao : 爭只服務於黨跟國家是很難有進步的砸再多錢都一樣 05/09 22:37

→ s8626460 : 要好幾天時間才能訓練完,時間就是金錢,科技就是為了 05/09 22:37

→ s8626460 : 省時間 05/09 22:37

推 scratch01 : 我也以為我在電蝦版 05/09 22:39

推 Two2Seven : 電蝦也不會用到CUDA 吧，適用這些設備的也要配套 05/09 22:41

推 glad850 : 看不懂還是要推 05/09 22:43

推 gwofeng : 來這就是買新的 (x 05/09 22:43

推 hababahawawa: 看不懂但還是推 05/09 22:43

推 roy2142 : 我重複出去又進來幾次確認我在軍事版xd 05/09 22:47

→ geordie : 玩線上遊戲沒顯卡，就算記憶體再多一樣也是卡卡卡 05/09 22:47

→ geordie : （？ 05/09 22:47

→ geordie : 不過有顯卡是否比較吃電啊？ 05/09 22:48

推 Pegasus170 : 這篇才真正解釋到目前機器學習及巨量資料會卡的瓶 05/09 22:49

→ Pegasus170 : 頸。不要以為運算快就好，最麻煩的是資料遞送速度 05/09 22:49

→ Pegasus170 : 跟指令集排程最佳化能力。一個考驗運算單位的設計 05/09 22:49

→ Pegasus170 : ，一個考驗資料輸送時的過程。還有更機車的：把上 05/09 22:49

→ Pegasus170 : 述兩個要件串在一起最佳化。 05/09 22:49

→ otis1713 : 他不會來，只會裝死吧 05/09 22:50

推 asskid : 推 05/09 22:50

推 hprince : 我以為到電蝦 05/09 22:52

推 andyao1562 : 推專業 05/09 22:52

推 php4 : 人家可以在高速公路上飆車，中國只能在省道開快一 05/09 22:53

→ php4 : 點的概念 05/09 22:53

→ huckerbying : 多一個硬體鐵定會更吃電啊，只是吃多吃少而已 05/09 22:53

推 Pegasus170 : 人家美國的高速公路就算限速100，但還有設計高流量 05/09 22:55

→ Pegasus170 : 專用道優最佳化，你中國的省道只有三條線，就算限 05/09 22:55

→ Pegasus170 : 速拉到100也沒用。 05/09 22:55

推 wahaha99 : 嗯,你是對的。你說的對。 05/09 22:55

→ huckerbying : 現在的遊戲用顯示卡都有切換高低負載的模式，避免你 05/09 22:55

→ wahaha99 : 我以為瓶頸會在FP64那邊,然後是有限元素分析的障礙 05/09 22:56

→ Pegasus170 : 然後美國高速公路是5(ordinary)+1(HOV)線 05/09 22:57

→ huckerbying : 只看個PTT就耗能爆炸 05/09 22:57

推 gn01642884 : 讓我想到以前寫個ML作業用CPU跑就要一天。那時候最 05/09 22:57

→ gn01642884 : 好的lib是openCV因為可以用顯卡加速... 05/09 22:57

推 execration : なるほどわからん 05/09 22:57

→ gn01642884 : 只能說時代差了幾年就差了很多 05/09 22:58

→ geordie : 科技始終來自於人性 05/09 22:58

推 banamelon : 講直白點，如果砸錢能大力出奇蹟，阿共不知道出幾 05/09 23:01

→ banamelon : 個台積電了 05/09 23:01

→ huckerbying : 我記得以前學生物科技時有教授教用Medline資料庫去 05/09 23:01

推 henrytsai : 推專業 05/09 23:01

推 aegis43210 : 軍事上現在都用AI加雲端運算啦，有了星鏈，你可以即 05/09 23:01

→ aegis43210 : 時用超級電腦計算所有戰術方案及敵我辨識 05/09 23:01

推 heinse : 看不懂但是推專業 05/09 23:02

→ huckerbying : 跑序列比對，那個時候才幾Kb的序列就要花一兩天 05/09 23:03

推 Pegasus170 : 但是星鍊資料搬運速度有限呀… 05/09 23:03

→ aegis43210 : 而HPC的好壞就要看拓撲學，整個主機設計的好，你時 05/09 23:04

→ aegis43210 : 效性就贏人好幾步 05/09 23:04

→ Pegasus170 : 雲端運算最大問題還是資料搬運速度及運算元被軟體 05/09 23:04

→ Pegasus170 : 切割。 05/09 23:04

推 Gjerry : 實際上應用的時候耗費的資源比訓練的時候少，網路 05/09 23:07

→ Gjerry : 帶寬影響搞不好比延遲小 05/09 23:07

→ geordie : 現在雲端技術最成功的是資料備份吧？ 05/09 23:07

推 aegis43210 : AI推理不需要非常大頻寬，星鏈夠用了 05/09 23:09

→ huckerbying : 雲端技術最成功的是叫Container"容器" 05/09 23:09

推 utn875 : 我走錯板了… 05/09 23:10

推 Gjerry : 雲端備份只是一小部分，微軟，亞馬遜，谷歌提供的 05/09 23:11

→ Gjerry : 雲端計算業務都還在快速成長。 05/09 23:11

→ ErnstvonBohr: 確認好幾次自己是不是在電蝦XD 05/09 23:11

推 cross980115 : 推科普 05/09 23:12

推 Gjerry : 容器化讓很多服務可以在同一台主機輕量又快速的部 05/09 23:13

→ Gjerry : 署 (跟虛擬機比起來) 05/09 23:13

推 iKelly : 我也差點以為我在電蝦板 05/09 23:15

推 aegis43210 : 美國現在領先在矽光子交換器，未來會用在10Exascale 05/09 23:18

→ aegis43210 : 等級的超級電腦，中國是完全追不上，而IBM的量子混 05/09 23:18

→ aegis43210 : 合運算HPC也在實作中 05/09 23:18

推 hdjj : 推專業 05/09 23:26

推 hahabis : 感謝。我終於看懂了DL的意思 05/09 23:29

推 daniel1309 : 這篇可以存起來。 05/09 23:29

噓 junellie : 抱歉紅明顯。每個領域都是這樣啊，一直說美帝蠢又 05/09 23:31

→ junellie : 壞的，一直蠢的是你自己，覺得壞是因為你不是站在 05/09 23:31

→ junellie : 美帝同一個陣營 05/09 23:31

推 b10036088 : 我看了什麼東西但還是推了 05/09 23:31

推 zseineo : 想說在回誰，99不意外 05/09 23:32

推 ayau : 推 05/09 23:37

推 izplus : 以為去錯版 05/09 23:45

推 eupa1973 : 專業 05/09 23:50

推 deepelves : 可是以前是有實驗室用T-Rex做DL訓練還發了paper 05/09 23:55

→ deepelves : 如果是成本考量應該也不是不能用4090，畢竟A800很貴 05/09 23:56

推 OldDaiDai : 推 05/09 23:57

推 topper : DL是啥？ 05/10 00:08

推 hahabis : 應該是Deep Learning吧 05/10 00:12

推 verdandy : 現在序列比對到NCBI就可以免費使用，還可以比對整個 05/10 00:12

→ verdandy : 幾乎收錄全物種序列的資料庫，科技的進步很驚人的 05/10 00:13

推 dos01 : 最近很多人被媒體洗一洗就已為自己很懂AI 05/10 00:13

→ dos01 : 但說真的那些大多數都只是炒股用語看多了就知道 05/10 00:13

推 attitudium : 看軍武長知識 05/10 00:13

→ dos01 : 只是某些人炒股炒一炒又想要用股價割一波韭菜 05/10 00:13

→ dos01 : 騙一些自以為懂的進去當韭菜而已... 05/10 00:13

→ verdandy : 就很多人以為AI很簡單 05/10 00:14

→ dos01 : AI的實際應用根本沒有這麼實際大多數都還只是跑了 05/10 00:14

→ dos01 : 半天跑出一個根本不知道幹嘛的結果 05/10 00:15

推 AnderinSky : 推認真科普文 05/10 00:19

推 sexyboy5566 : 美國永遠吸引世界最頂尖的人才和企業，中國？？？ 05/10 00:20

→ sexyboy5566 : ？ 05/10 00:20

推 aquarius360 : 推專業 05/10 00:20

→ diabolica : 未看先推 05/10 00:27

推 b325019 : 學術研究經費就那樣，院級研究單位也是有拿遊戲卡來 05/10 00:28

→ b325019 : 跑的 05/10 00:28

推 will7582 : 我可能有點離題..但這就像中國宣稱突破EDA軟體一樣 05/10 00:33

→ will7582 : 要寫軟體本身都可以寫但沒有工廠數據配合設計模型 05/10 00:34

→ will7582 : 那東西根本不能用美國研發幾十年的東西中國三年 05/10 00:35

→ will7582 : 就突破? 05/10 00:36

推 b325019 : 對岸戰狼思維只能賺快錢這種東西他們玩不來 05/10 00:36

推 jasonspacex : VRAM不夠 Batch也不能開大真的會OOM鐵拳吃好吃滿 05/10 00:40

推 massrelay : 推說明 05/10 00:42

推 jess730612 : 雖然我都忘記什麼時候把你列入黑單但是你是懂行的 05/10 00:57

推 nfsong : 看了兩遍確認我在軍武版 05/10 00:58

→ nfsong : 看到情報數則有大事開心地點近來被騙 05/10 00:58

推 jess730612 : 稍微再認真看這篇就算Tech_Job板當科普文都不會打槍 05/10 01:06

推 wbreeze : 感謝分享 05/10 01:08

推 difvoice : 其實說正經完全精確，我自己做輕量化object detect 05/10 01:24

→ difvoice : ion的也發了兩篇ieee前段會議的一作，我用兩張1080 05/10 01:24

→ difvoice : ti跟一張3090而已 05/10 01:24

→ difvoice : *不完全精確 05/10 01:25

推 viper0423 : 非資訊類的工科社會人,內容簡單明瞭容易理解給推 05/10 01:48

推 jetalpha : 推說明 05/10 02:01

推 aicassia : 只能給推了舉例說明很清楚易懂讓我擔心了一下會 05/10 03:39

→ aicassia : 不會出現胡歌老公之類的 05/10 03:39

推 PopeVic : 推，離題最近實驗室想搞vGPU但消費級驅動沒支援， 05/10 03:41

→ PopeVic : 非得要去買 A 系列，專業級真的是被 NV 吃死死QQ 05/10 03:41

推 KenshinCS : 很好的科普 05/10 03:53

推 mekiael : 粉紅的教育程度只覺得錢=科技，自己不行那就用偷的 05/10 05:30

→ mekiael : ，用山寨的，連整個國家都是這個樣子在山寨軍武，更 05/10 05:30

→ mekiael : 遑論底下的人民，所謂上行下效正是如此 05/10 05:30

推 aiyouwei : 巷子內的 05/10 06:05

推 allan0926 : 看起來中國的量子電腦也是吹的？ 05/10 06:19

推 gogoegg : 他有來推文啦只是酸言酸語難怪常常有人戰他 05/10 06:42

推 crohns : 近十年前aws出世的時候亞洲沒什麼人在談，沒想到這 05/10 07:43

→ crohns : 兩年瞬間爆紅，人人在講雲，大數據，ai 05/10 07:43

推 cloudwolf : 推!!長知識了，謝謝! 05/10 07:45

推 mmarty : 看軍武漲姿勢.... 05/10 08:09

推 mazyota : 推 05/10 08:10

→ mazyota : 有料的文 05/10 08:11

推 MicChung : 解釋得超清晰的 05/10 08:15

推 LI40 : 推 05/10 08:15

推 b389b1c : 這讓我想到以前在產線的AOI爛得要死 05/10 08:23

→ b389b1c : 最後把ram加到500G才不會死當機 05/10 08:23

推 barry70490 : 馬的當初就是被實驗室腦殘助力騙說兩張1080疊在一 05/10 08:28

→ barry70490 : 起跑效能好：） 05/10 08:28

推 joe2 : 我進來，嗯? 退出看板名，嗯??? 再進來，嗯!!! 05/10 09:44

→ joe2 : 大型語言模型是不是用大量的歷史資料來預測未來? 05/10 09:45

推 nipage16 : 那也不能說是預測，而是透過大量資料學習如何做出正 05/10 09:50

→ nipage16 : 確或適當的回應吧 05/10 09:50

推 QuentinHu : 推專業分享 05/10 09:58

推 anarch : 推分享、收藏。 05/10 10:25

推 cleverjung : 推想到前幾天yt推給我這影片 05/10 10:51

→ cleverjung : https://youtu.be/zBAxiQi2nPc 05/10 10:51

推 Pegasus170 : 說真的，我實在不想承認現在的AI是AI，我認為只有 05/10 11:44

→ Pegasus170 : 到DL等級。甚至很多應用只是ML+big data。 05/10 11:44

推 st89702 : 推簡單明瞭 05/10 11:46

推 bunjie : 推一個簡單明瞭 05/10 12:02

Re: [情報] 情報數則

您可能感興趣

熱門文章