※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1709177914.A.EF9.html
推 pmes9866 : 好的 歐印TQQQ 02/29 11:40
推 leochen124 : 謝謝分享 02/29 11:41
推 poisonB : 何必跟一知半解的認真 02/29 11:44
推 Aska0520 : 感謝分享 ALL IN NVDA 02/29 11:44
推 kid1a2b3c4d : 講中文啦QQ 02/29 11:44
→ aimlikenoob : 問就是買 02/29 11:45
→ tctv2002 : 嗯嗯 跟我想的一樣 02/29 11:48
→ fatb : 閱 02/29 11:49
推 rkilo : 謝分享 02/29 11:51
推 sam90205 : 何必認真看到那篇論文的產地就可以end了. 02/29 11:52
推 kducky : 00757會漲嗎0.0 02/29 11:55
推 roseritter : 推. 硬體受限情況下 只能從其他地方突破惹 02/29 11:55
推 ab4daa : 歐印TQQQ 02/29 11:55
推 a069275235 : 樓下幫我看一下這一大篇有沒有股點 02/29 11:55
→ roseritter : 中國的HBM不知道何時商業量產 02/29 11:55
推 Altair : 豪!!! 所以要歐印誰? 02/29 11:56
→ kausan : 所以沒有比cuda更屌的東西你還是要舔nv 02/29 11:57
→ a069275235 : 感恩明牌 五星推! 02/29 11:58
推 abc21086999 : 我記得原Po是在G工作的FTE 02/29 11:59
推 j65p4m3 : 好窩歐印 02/29 11:59
推 esproject : 幹嘛跟對岸小粉紅認真www 整天再吹利害了窩的鍋 02/29 12:04
推 leoloveivy : 但如果要tpu 一定是port一個可以的model v-ram加上 02/29 12:06
→ leoloveivy : 去面積大 價錢還是比H100划算吧嗎 02/29 12:06
推 lonzoball02 : 繞過去就好了 02/29 12:06
推 iamjojo : 推解釋 這我看得懂 02/29 12:11
推 minikai : 問就是TQQQ 02/29 12:12
推 WTF55665566 : 那文就是裝逼拐個彎吹支那或成最大贏家而已 02/29 12:14
→ WTF55665566 : 欠打臉 02/29 12:14
推 TheObServer : 請問什麼東西比庫打還猛? 02/29 12:15
→ JKjohnwick : 中國的科技業不是只能代工跟抄襲嗎 02/29 12:16
→ AndyMAX : switch ==> Nintendo 02/29 12:17
→ TheObServer : 不會是量子電腦吧 02/29 12:17
推 subi : 現在好像開始談LPU了 02/29 12:18
推 motan : 好,結論就是輝達強暴了 02/29 12:21
推 ymlin0331 : 包牌是TQQQ啦 02/29 12:21
推 fmp1234 : 關鍵就是要 大 02/29 12:27
推 truelove356 : NV不是要搶AVGO的地盤 02/29 12:29
推 csluling : 本來就是,不然一直在衝v-ram幹嘛,一堆北七一直在 02/29 12:30
→ csluling : 講算力瓶頸 02/29 12:30
推 zoze : AMD能分一杯羹嗎 02/29 12:30
→ csluling : 出新卡建新機就是一直在關注v-ram多大才知道能跑多 02/29 12:31
→ csluling : 大模型 02/29 12:31
推 ppuuppu : 讚讚 02/29 12:32
→ csluling : 不過pytorch不算是繞過CUDA吧,頂多說可以對硬體有 02/29 12:33
→ csluling : 指哪算哪效果吧? 02/29 12:33
推 Ashand : SOXX 02/29 12:35
推 leochen124 : 所以現在新創都在做inference的加速嗎 02/29 12:36
推 LieTo : 繞過CUDA的意思是也可以不用NV的晶片嗎? 02/29 12:36
→ LimYoHwan : https://i.imgur.com/GxJuHEi.jpeg 02/29 12:37
推 easyman : 這篇論文其實是-1,0,1 , 其實應該很適合整合在 02/29 12:37
→ easyman : flash TLC上面。 或者 三檔電壓的RAM上面。 如果 02/29 12:37
→ easyman : 放在FPGA上,就是2bit 加法器。 02/29 12:37
→ LimYoHwan : 快一倍走了 韭菜套滿手 割肉再進去 02/29 12:37
推 leochen124 : 現在應該是還有那些國家的LLM的sever還沒被滿足,才 02/29 12:38
→ leochen124 : 能確定有沒有overbooking 02/29 12:38
推 cowaksor : 好的信貸加質押tqqq 02/29 12:40
→ Lipraxde : Edge inference 到處都在推,簡直殺紅眼了XD 02/29 12:46
推 smallcheng : AMD除了價格優勢,在技術上有什麼優勢跟著NV喝湯嗎 02/29 12:46
推 Fww : 推你認真,下面那篇真的不知在幹嘛 02/29 12:47
→ TsmcEE : 包牌不應該是tqqq嗎 02/29 12:50
推 energyy1104 : 個人認為真正的護城河是NVLink跟NVSwitch 02/29 12:52
推 pponywong : Edge side只可能做inference阿 02/29 12:52
→ energyy1104 : CUDA的重要性恐怕還要排在這兩個後面 02/29 12:52
→ pponywong : 另外training的成本也很大 不可能繞過去 02/29 12:53
→ pponywong : 目前openai 是用富爸爸的azure data center 02/29 12:53
→ s90002442 : 結論: 單押g 02/29 12:53
→ pponywong : 你要搞模型 你還是要花錢買NPU(TPU)或是GPU 02/29 12:54
推 william85 : 推 02/29 12:55
推 Gipmydanger : 推 02/29 12:55
推 pponywong : 除了谷歌的TPU 目前只有微軟說要自己做 下單給牙膏 02/29 12:56
→ pponywong : 其他都還是用NV CUDA 像是META跟TSLA 就買幾十萬片 02/29 12:57
推 sdbb : 拜託別刪,謝謝 02/29 12:57
→ LDPC : 狗家忘了下車 嗚嗚嗚嗚 99狗家 QQ 02/29 12:58
→ pponywong : 另外就原Po講的 AI model會越來越大 你圖形辨識跟 02/29 13:02
→ pponywong : GPT到現在Sora的模型 不是同一個量級的增長 02/29 13:03
→ pponywong : 你要進入到下一個階段的AI 你就只能繼續擴大算力 02/29 13:03
→ pponywong : 可能Sora需要30萬張H100 下一個AI就需要100萬張 02/29 13:04
→ pponywong : 然後這些training是沒辦法繞過的 你要進場玩 你就只 02/29 13:04
→ pponywong : 能花錢 02/29 13:05
→ clamperni : 基本麵吃起來 02/29 13:05
→ yiefaung : TPU也有TPU pod好嗎… 02/29 13:06
推 leochen124 : 請問inference就不用把整個大模型放到vram嗎 02/29 13:07
→ LDPC : 樓上 用切的QQ 參照Model parallelism 02/29 13:14
→ LDPC : 所以gpu之間通訊速度很重要 這是老黃的大招 02/29 13:14
→ LDPC : 4090有等效A100算力 但4090多卡之間通訊太慢 02/29 13:15
推 ohmypig : 請問原po 對Alphawave IP 這家的看法? 傳輸速度會 02/29 13:15
→ ohmypig : 是下一個gating 嗎? 02/29 13:15
推 leochen124 : 謝謝L大解說 02/29 13:16
→ LDPC : https://zhuanlan.zhihu.com/p/107101727 02/29 13:17
推 Samurai : 我廢物只想知道要歐印哪隻 02/29 13:21
推 ProTrader : 原po說的內容外行人可能真的搞不董"大型" 02/29 13:22
推 tchen4 : 看不懂 先給推 02/29 13:22
推 csluling : 原po跟L大都好心人 02/29 13:23
→ ProTrader : 用生活中的東西來說 台鐵高鐵都是大型 02/29 13:23
→ ProTrader : 但是台鐵高鐵的速度差異很明顯 02/29 13:23
推 zhi5566 : Waitrop發一篇文 我就買一些TQQQ 02/29 13:24
→ ProTrader : 如果你家有超跑 跑的比高鐵快 那還是迷你型沒用 02/29 13:24
推 clisan : 謝謝說明 02/29 13:24
推 usb4 : TPU好像可以串連了? google上次說training用自家TPU 02/29 13:25
推 xm3u4vmp6 : 超低延遲 網卡直連暫存器 這樣才能擴展 02/29 13:25
→ ProTrader : 我記得在10多年前流行大數據的時候開始有"大型" 02/29 13:26
→ ProTrader : 現在的大型需求真正變的火熱 02/29 13:27
推 dongdong0405: NVDA真的是安心買,未來它的saas 會越賺越多 02/29 13:28
推 ctes940008 : 歐印 02/29 13:29
→ Alwen : 看到sora橫空出世,我只覺得老黃infiniband贏麻惹 02/29 13:31
推 pponywong : GPU之間的溝通速度 就是AVGO(博通)的強項了 02/29 13:31
→ Alwen : 以後都是要求串連數十萬顆起跳 02/29 13:32
推 stlinman : v-ram就是關鍵啦! 串連效益/成本就NV最高,其他怎麼 02/29 13:32
→ stlinman : 怎麼打? 02/29 13:32
→ pponywong : 所以AI5才有AVGO 他是專門做傳輸ASIC的 02/29 13:32
→ stlinman : 老黃說買越多省越多不是在騙人的! 02/29 13:32
推 ProTrader : 原po說的兩點也是教主說的老黃包圍網的成敗因素 02/29 13:33
→ ProTrader : 只要這兩點不突破包圍網就徒勞無功老黃繼續統霸天下 02/29 13:33
→ horb : 感謝分享 02/29 13:37
→ LDPC : 所以蘇媽才要跟AVGO聯手啊蘇媽就是需要個"amd link" 02/29 13:39
推 pponywong : 真的怕就買台積就好 我是覺得NVDA的護城河非常深 02/29 13:39
→ LDPC : 蘇媽+何國源資產+VictorPeng+陳福陽 打老黃 02/29 13:40
→ LDPC : 旁邊吃瓜看戲 QQ順便可以看彼此策略攻防戰 02/29 13:41
推 pponywong : AVGO的Tomahawk5 應該是市面上唯一800G 的switch ic 02/29 13:41
→ Alwen : 黃董手都伸到saas惹,進度真的很快 02/29 13:44
推 ejnfu : NVDA AMD QQQ全買就好 02/29 13:44
推 stlinman : 老黃把供應鏈都綁樁顧好了! 其他家想追上先不考慮 02/29 13:47
→ stlinman : 技術成本能不能追上,光是產能卡不卡的到都是問題! 02/29 13:48
推 leoying : 推一個 解釋的很清楚 02/29 13:49
推 leoying : 不太懂為什麼AMD要找avgo合作,它自己不是有Xilinx. 02/29 13:53
推 s987692 : PyTorch+rocm就饒過cuda了 02/29 13:55
→ donkilu : 你要每個廠商各自做自己的TPU driver compiler SDK 02/29 13:55
→ donkilu : 還只能自家內部用用 這樣搞到最後有比較省嘛... 02/29 13:56
→ joygo : 現在問題就是真的能讓ai 突破的是學者吧,不是工程 02/29 13:57
→ joygo : 師,好用,用習慣才是重點 02/29 13:57
→ donkilu : 如果是成熟準備上線的產品還好說 現在軍備競賽階段 02/29 13:57
→ donkilu : 如果自家晶片研發不順 把軟體研發拖垮豈不是更慘 02/29 13:57
→ donkilu : 大廠多少還是要買雙保險 02/29 13:58
推 jagger : 推 02/29 14:01
推 zhi5566 : AVGO到底還可不可以買啊 02/29 14:06
→ LDPC : http://tinyurl.com/2znsvsxa QQ 旁邊看戲 02/29 14:06
→ LDPC : 我有買AVGO 02/29 14:06
推 zhi5566 : AVGO除了技術強 CEO更強 有其他風險嗎 02/29 14:07
→ zhi5566 : 是不是無腦AI5 就可以 02/29 14:09
推 leoying : 我還真的只有買AI5, 連QQQ都不想買 02/29 14:13
推 rebel : TQQQ王 以後可以不要隨便砍你自己的文章嗎 文章是 02/29 14:13
→ rebel : 你的 但下面很多推文很有參考價值 我印像中我的推 02/29 14:13
→ rebel : 文就砍了至少三次 實際上應該是更多 尊重一下推文 02/29 14:13
推 AoA1 : 好文 02/29 14:14
推 kducky : 有時候是編輯文章同時推文被吃掉吧? 02/29 14:14
推 zhi5566 : 50% qqq/tqqq+ 50% AI5 洗頭+局部加強? 02/29 14:15
推 kis28519 : 推 02/29 14:17
推 rebel : 不是 他是整個文章砍掉 02/29 14:19
推 goldmouse : 看完了 所以要買那隻 02/29 14:21
推 wst24365888 : 推 02/29 14:37
推 LDPC : 有時真的得砍文 我也常砍 因為有時講太多業界的 02/29 14:40
→ LDPC : 會讓自己也有點麻煩 像果家就在這方面抓很嚴格QQ 02/29 14:41
→ roseritter : 所以我都手動備分XD 02/29 14:42
→ roseritter : 關鍵有時在推文 點一下 就會有更多想法 02/29 14:42
→ LDPC : TQQQ王是好人QQ 我周遭同事沒人上批踢踢講業內事情 02/29 14:42
推 truelove356 : AVGO漲最少 02/29 14:45
推 ru04hj4 : 看完只看到包牌 QQQ 02/29 14:45
推 meaa3 : 弱弱地問七巨頭五仙女是指??? 02/29 14:49
推 ProTrader : 我還以為你是手動砍文是為了低調 因為說太多 02/29 14:50
→ moonshade : tpu也可以設計成可以解hierarchical問題的 02/29 14:56
推 strlen : 是擔心歐美cancel culture嗎?唉 02/29 15:03
推 johnlin35 : 推 02/29 15:08
推 thomaspig : 推 02/29 15:11
推 rebel : 好啦 我也說了文章畢竟是你發的 你還是有砍文的權 02/29 15:12
→ rebel : 力 只是很多推文很有幫助 不希望回來要找找不到 折 02/29 15:12
→ rebel : 衷也許你就編輯 把你的部份不適合的砍掉就好 供參 02/29 15:12
推 stosto : CPU怎麼會在你比較清單上 02/29 15:16
→ stosto : Tpu 的問題就是硬體已經作死了,應用面變成侷限在 02/29 15:19
→ stosto : 某些問題上,超出這些問題就不能用了 02/29 15:19
推 ca1123 : 推TQQQ王 02/29 15:22
推 vlstone : 推分享 謝謝 02/29 15:23
推 marke18 : 推~~ 02/29 15:30
推 richaad : https://i.imgur.com/9n1nQ3w.jpg 02/29 15:34
→ richaad : 看看cuda 這個量級,後者要追上至少5年以上 02/29 15:34
推 ProTrader : 可能是AMD為了自研市場布局嗎? 因為便宜就有市場 02/29 15:48
→ ProTrader : 然後蘇媽想要把自研整個吃下來? 02/29 15:48
推 metallolly : 有文科翻譯機可以翻譯一下嗎 02/29 15:52
推 smallmac : 大家有注意到Meta找陳陽福去當Board Member嗎?一兩 02/29 15:54
→ smallmac : 週前的新聞 02/29 15:54
推 smallmac : Sorry 是陳福陽 02/29 15:56
推 roseritter : 你就是在酸狗家XD 02/29 16:24
噓 a000000000 : 他那葛paper也有講vram需求會變小很多 模型越大差 02/29 16:30
→ a000000000 : 越多 好像號稱70b的可以差到40倍 02/29 16:30
推 roseritter : 問個不專業問題 V-RAM大小跟成本正相關可以理解 02/29 16:31
→ roseritter : 那設計之初 就把記憶體放大某個安全係數 相較於總 02/29 16:32
噓 a000000000 : 他那東西關鍵來來去去還是training沒講有省 02/29 16:32
→ a000000000 : 現狀4能train大model的地方沒幾葛 尼要大家都用尼 02/29 16:33
→ a000000000 : 那套 那也要資源夠多當side project 02/29 16:33
→ roseritter : 成本 V-RAM還是比較便宜的吧 我看蘇嬤的同級產品 02/29 16:33
→ roseritter : v-ram都刻意比N社大 02/29 16:34
→ a000000000 : 省bit的東西印象中ai剛流行就一堆人搞惹 起碼10+年 02/29 16:34
→ a000000000 : 有些東西變成標準 tf32 tf16 bf16那些的 02/29 16:34
→ a000000000 : 標準要那些大公司才推得動 02/29 16:35
→ a000000000 : 如果只是想湊葛asic概念 去賭的小公司一堆死惹 02/29 16:35
噓 a000000000 : 尼對vram的理解就錯惹 02/29 16:47
→ a000000000 : 單卡vram夠大 單卡可以跑的模型就大 02/29 16:48
→ a000000000 : 像tpu v5那種單顆16G然後拉一堆光纖對連的方案就很 02/29 16:48
→ a000000000 : 慘 因為那種link的pJ/bit大概是cowos的幾十倍 02/29 16:49
→ a000000000 : 簡單講人家單卡塞的下的狀態功耗優勢明顯 02/29 16:49
推 FMANT : 所以要不要繼續捏NVDA???? 02/29 16:51
→ FMANT : 就這個問題 02/29 16:51
→ a000000000 : 蘇媽的192夠塞那種70b惹 而且70B也很多夠用惹 02/29 16:53
→ a000000000 : 我覺得那種Tb級的下代model跑起來成本也不低 02/29 16:54
→ a000000000 : 市場可能會先慢慢消化gpt4等級的應用 02/29 16:55
推 fancydick501: hbm是mu喔 還以為是韓國那兩家 02/29 17:48
推 xoy232 : 這篇給推 NV要爆噴了 02/29 17:52
推 KrisNYC : 爆一爆吧 基礎邏輯大家都應該有 目前cuda硬解不可避 02/29 18:09
→ KrisNYC : 有能力搞底層繞過cuda相關運算法則的都是巨頭 02/29 18:09
推 lavign : colab選TPU跑深度學習超級慢 02/29 18:28
→ ookimoo : 相對很快,很強,但是沒用,下去吧電子垃圾 02/29 18:34
推 richaad : 最近Google AI別鬧了,生成圖片一直出大包,美國國 02/29 18:39
→ richaad : 父變黑人 02/29 18:39
推 oneIneed : 不明覺厲 02/29 18:42
→ fallen01 : 遙望Cuda當年唸書就有了 寒窗十年 02/29 18:55