※ 文章網址: https://www.ptt.cc/bbs/MAC/M.1737094355.A.FB6.html
推 Rougun: 想玩 Ollama 的話看你偏好玩小模型還是大模型也想玩 01/17 15:43
→ Rougun: ram 就愈大愈好啦,小模型且只是寫程式應該是沒差多少啦 01/17 15:46
→ doubi: M2 跟 M4 速度體感差很多, 尤其是多開應用的時候 01/17 16:47
→ doubi: 我現在就是同時 M2 + M4 在用 XD 01/17 16:48
→ doubi: M2 是公司發的, 很容易讓我等待 01/17 16:48
→ crimsonmoon9: 差距蠻大的 但還是要看你的使用狀況 01/17 17:37
→ crimsonmoon9: 我想ram大小還是優先 01/17 17:37
推 joumi: 直上 01/17 17:44
推 MOONY135: Ram要大 01/17 18:37
→ KINGWAP: 可以去蝦皮找找看有沒有保內的M2 max 64G 01/17 19:22
→ KINGWAP: 玩AI推理64G是很基本的 01/17 19:22
推 yhubi: $77,300 原價 $84,900 :: 16 吋 MacBook Pro M4 Pro 可參 01/17 22:03
→ yhubi: 考 01/17 22:03
推 Bambe: 給你參考一下,我之前用 Mac Mini M2 Pro 32G Ram 跑 70b 01/18 00:13
→ Bambe: 模型,大概十分鐘跑不到十個字... 01/18 00:13
推 autopass: 70b 45Gb左右,沒64g ram真的玩不起 01/18 00:32
→ autopass: 直接串API吧,公司真機密資料看老闆要不要贊助 01/18 00:33
推 Bambe: 不過剛測試 32b(19GB) 的速度還算可接受 01/18 00:37
→ crimsonmoon9: ollama用壓縮過的模型應該能省一點空間? 01/18 00:39
推 Bambe: 剛測試了跑個 40b(23GB) 的就有點喘了,需要重開機才能跑 01/18 02:19
→ chin2049: 好的 參考一下 01/18 09:34
推 jacklin2002: 有錢想玩就直上,要不然不如不買,買一半那種最浪費 01/18 14:01
→ jacklin2002: 花了一筆錢,然後又得不到想要的效果,白花 01/18 14:01
推 FishYui: 推樓上,之前就是買了一個不上不下的規格用的很有疙瘩 01/19 00:24
推 fastyangmh: 好奇,就算ram滿足讀取大模型的需求,不過回應速度能 01/19 11:05
→ fastyangmh: 夠滿足即時性嗎?感覺每秒token數會很低 01/19 11:05
推 Louis430: 推 jacklin2002 01/19 18:02
→ crimsonmoon9: 目前影響模型性能的應該都是記憶體頻寬問題 尤其是 01/19 18:20
→ crimsonmoon9: 不夠用然後用到swap的時候 01/19 18:20
→ crimsonmoon9: 純推理時的計算性能應該都夠用了 01/19 18:20
→ hidexjapan: Mac跑模型就是用時間來換記憶體容量,要快要打只有老 01/20 20:19
→ hidexjapan: 黃啊,之前看評測M4 Pro 回應token每秒就11-13左右 01/20 20:19
→ jhjhs33504: 量化的模型在不同VRAM大小佔用GPU/CPU的資源天差地遠 01/21 14:40
推 fastyangmh: Jh大可以解釋一下,我不太懂為什麼相同量化模型在不同 01/21 22:01
→ fastyangmh: 的vram下,CPU/GPU會有不同嗎? 01/21 22:01
推 kt56: 16 吋 MacBook Pro M1 Pro 全新未拆47000 01/26 03:26
推 jhjhs33504: 那種壓縮方式並不是無損的 損失部分有不可控的副作用 01/27 21:04
→ jhjhs33504: 同一個量化模型用CPU或用GPU執行的指令集與精度不一樣 01/27 21:07
→ jhjhs33504: 排列組合產出的結果品質就是天差地遠當然其中差距就是 01/27 21:09
推 jhjhs33504: 需要相當的背景知識去調整執行程序甚至是調整訓練方法 01/27 21:13
推 jhjhs33504: 可能要查一下訓練模型的機房規模有多大心裡才會有概念 01/27 21:26