Re: [閒聊] M2Ultra在AI比intel+nVIDIA有架構優勢?

看板	PC_Shopping
作者	oopFoo (3d)
時間	2023-07-03 10:27:59
留言	47則留言 (6推 5噓 36→)

看板PC_Shopping

: 先說我不懂AI運算 : 只是看了林亦的新影片 : https://youtu.be/UsfmqTb2NVY

就鬼扯，我也懶的噴他。現在老黃是遙遙領先所有人，AI全吃，沒什麼好爭辯的。現在所謂的DL，第一需要的是運算，第二才是記憶體頻寬。 M2Ultra的gpu就27.2tflops(fp32)，跟3080差不多，但ampere有兩倍的(fp16+fp32accumulate)還有4x的(fp16)。現在fp16訓練就很夠了，擔心你可以用fp16+fp32模式，那也是2x你m2 ultra。 https://images.nvidia.com/aem-dam/Solutions/Data-Center/l4/nvidia-ada-gpu-architecture-whitepaper-v2.1.pdf https://tinyurl.com/yuak5w5d 4090是82.6tflops(fp32)，330.3tflops(fp16)。m2ultra連車尾都看不到，可憐啊。然後M2Ultra的31.6tops，那應該是int8無誤如果是int4那就更可憐。4090是660.6(int8)tops與1321.2(int4)tops。這已經是被超車好幾十圈了。(tops是inference用的) H100 datasheet https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet https://tinyurl.com/bdfuutbe h100 pcie是最低階的 756tflops(tf32) 1513tflop(fp16) h100是狠狠的虐了所有人包含a100。2x~4x(a100) https://www.mosaicml.com/blog/amd-mi250 AMD的mi250不到a100的80%，mi300的specs其實跟mi250差不多，mi300主要是apu功能。只有google的tpu跟intel的gaudi2跟a100有輸有贏。 https://mlcommons.org/en/training-normal-30/ gaudi2在gpt3的訓練大概是h100的1/3性能。 intel為什麼要取消rialto bridge？現在ai當道，fp64強的hpc架構根本毫無用處。AMD因為只有mi300所以只能硬上了，但383tflops(fp16)要怎麼跟1500+tflops的h100比？ intel現在把資源集中在gaudi3/4，期望2年內可以看到老黃的車尾。有人以為老黃只是因為cuda軟體贏。其實nn很容易移植到其它架構，老黃是硬體大贏＋長期耕耘ai。 -- 這根本是外行話。 nn本來就是tensor。有756tflops的tf32幹麼用51tflops的fp32。 h100還有fp8，有些training有用到更是可怕的效率。夢裡什麼都有。AMD戰未來。沒有架構大改。現在公開的數據就沒有變動很大。

※ 批踢踢實業坊(ptt.cc), 來自: 36.224.249.214 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1688351283.A.3EF.html

→ WYchuang: MI300應該沒有跟250差不多 … apu只是其218.164.221.191 07/03 10:54

→ WYchuang: 中一個型號 mi300x才是全部gpu218.164.221.191 07/03 10:54

噓 a000000000: mi300x我記得fp32沒輸h100多少喔 76.132.63.174 07/03 11:01

→ a000000000: 而且老黃是tensor core 76.132.63.174 07/03 11:01

→ a000000000: 現在也只有知道多少cu 不知道頻率 76.132.63.174 07/03 11:01

→ cor1os: 樓上射惹 125.227.5.157 07/03 11:08

推 E6300: 反正老黃就是拿遊戲卡來撐場子223.136.188.174 07/03 11:50

推 harry886901: 他計算速度主要是開大batch size 101.12.29.165 07/03 12:20

→ harry886901: 這樣確實不用算力也能有效加速運算效 101.12.29.165 07/03 12:20

→ harry886901: 率 101.12.29.165 07/03 12:20

→ CORYCHAN: 為何您會得出MI300跟MI250差不多的結論 223.139.79.158 07/03 12:26

→ CORYCHAN: 呢？ 223.139.79.158 07/03 12:26

推 spfy: 先不管IA有沒有輸這麼多那影片下面一堆人 202.173.43.202 07/03 13:02

→ spfy: 贊同蘋果要超越老黃看的我好像走錯世界線 202.173.43.202 07/03 13:03

→ oopFoo: 現在一堆在講AI的都讓我覺得很莫名奇妙。 36.224.228.156 07/03 13:26

→ oopFoo: 也有跑ai模型理論很好的人，對硬體完全不 36.224.228.156 07/03 13:27

→ oopFoo: 懂，也是意見很奇杷。 36.224.228.156 07/03 13:28

推 iuytjhgf: 你怎麼會期待讀資訊科的人就會組電腦 111.252.228.72 07/03 13:35

→ iuytjhgf: 寫軟體只在意我的模型到底塞不塞的下去 111.252.228.72 07/03 13:36

噓 a000000000: 尼484沒看懂我在講啥 76.132.63.174 07/03 13:51

→ a000000000: h100 tf32 756 76.132.63.174 07/03 13:51

→ a000000000: mi250 384 76.132.63.174 07/03 13:52

→ a000000000: mi300x cu數4mi250的1.6倍 76.132.63.174 07/03 13:52

→ a000000000: 再加上頻率差尼自己算一下 76.132.63.174 07/03 13:52

噓 a000000000: 等等我好像看錯惹 76.132.63.174 07/03 13:54

噓 a000000000: 384應該是mi300a的fp16 尷尬 76.132.63.174 07/03 13:58

推 Arbin: 不過就算目前mi300x有接近h100效能好了 111.71.218.44 07/03 14:48

→ Arbin: DL公司應該還是會對他觀望 111.71.218.44 07/03 14:48

→ Arbin: 主要目前你各位還是太黏NVDA 111.71.218.44 07/03 14:49

推 aegis43210: H100強在BF16和自己開發的TF32，這兩175.181.177.110 07/03 16:15

→ aegis43210: 種場景都比CDNA3強很多175.181.177.110 07/03 16:15

→ aegis43210: 但mi300在int8和int4相對mi250有4倍以175.181.177.110 07/03 16:16

→ aegis43210: 上的提升175.181.177.110 07/03 16:16

→ oopFoo: mi300有400tops，假設是int8好了，h100的 36.224.228.156 07/03 16:24

噓 a000000000: 我看惹一下 mi300在fp16含以下應該 76.132.63.174 07/03 16:27

→ a000000000: mi300x大概h100的一半附近 76.132.63.174 07/03 16:27

→ a000000000: 目前LLM運算應用效率4沒到50%才對 76.132.63.174 07/03 16:28

→ a000000000: 主要都卡ram 76.132.63.174 07/03 16:28

→ a000000000: 而且那是a100的狀態 76.132.63.174 07/03 16:28

→ a000000000: a100->h100 都是80GB hbm2e->hbm3 76.132.63.174 07/03 16:29

→ a000000000: tensor core運算效能多很多 76.132.63.174 07/03 16:30

→ a000000000: 能用到多少就很難說惹 76.132.63.174 07/03 16:30

→ oopFoo: 寫錯mi250大概400tops。mi300大概1600tops 36.224.228.156 07/03 16:32

→ oopFoo: h100是3026tops，350w。mi300要？800w? 36.224.228.156 07/03 16:33

→ oopFoo: int8/int4這種inference的東東，xilinx有 36.224.228.156 07/03 16:36

→ oopFoo: 比較划算的東東。MTL也有30?tops的vpu，這 36.224.228.156 07/03 16:39

→ oopFoo: 一塊還有空間給IA兩家機會搶。 36.224.228.156 07/03 16:40

Re: [閒聊] M2Ultra在AI比intel+nVIDIA有架構優勢?

您可能感興趣

熱門文章