





※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738164035.A.04B.html
→ s213092921 : 你先讓美吹上車完再焊死車門好嗎 01/29 23:23
推 tangolosss : 支那粉蛆說好的重擊美股呢?? 怎又開始自卑了??????? 01/29 23:25
→ uv5566 : deepseek已經不重要 openai原本商法已經沒用 市場 01/29 23:25
→ uv5566 : 投資都要重新估值 01/29 23:25
→ uv5566 : 接下來怎麼圈錢才是問題 01/29 23:26
推 etset : 學生只要念會考試的範圍就好了 01/29 23:27
→ etset : 題庫就在那裡了 01/29 23:27
→ good5755 : openAI不是說有兩個可疑帳號大量使用API 01/29 23:31
→ good5755 : 你ban我算力我直接偷抄答案 很符合對岸的邏輯 01/29 23:31
→ IBIZA : LLM沒辦法只抄答案 LLM必須具備推理能力才能應付 01/29 23:32
→ Windtears : https://substack.com/@cloudedjudgement/p-1557935 01/29 23:32
→ Windtears : 18 01/29 23:32
→ IBIZA : 所有問題 只能說 有頭有尾 要生出推理比較容易 01/29 23:33
推 sickshadow : 所以蒸餾可以讓學生得到比老師還口語化的結果? 01/29 23:33
→ IBIZA : 就像計算題已經知道答案要寫算式 總是比較容易 01/29 23:33
→ saisai34 : 學生比老師厲害不是很正常嗎 人類社會不就這樣@@a 01/29 23:34
→ IBIZA : 蒸餾通常沒辦法比老師厲害 01/29 23:34
→ IBIZA : 蒸餾就是讓學生模仿老師 逼近老師 01/29 23:35
→ saisai34 : 如果ai模型 沒辦法做到學生比老師強 那不就廢了@@? 01/29 23:35
→ IBIZA : 目前用的蒸餾法沒辦法 01/29 23:35
→ IBIZA : 目前的蒸餾法會劣化 01/29 23:35
推 lovepork : chatgpt 全名generative pre-trained transformer 01/29 23:35
噓 liscp : 等等…….股點勒 現在也要把股版蒸餾成柵欄版喔? 01/29 23:35
→ IBIZA : 一直蒸下去 會越來越笨 01/29 23:35
→ saisai34 : 越練越笨 那就不叫ai好嗎 =.=a 01/29 23:36
→ lovepork : 我好奇 deepseek也是transformer architecture嗎? 01/29 23:36
→ IBIZA : deekseek的呈現方式 沒理由不是transformer 01/29 23:38
→ IBIZA : transformer指的是 理解輸入資訊->推理->轉成輸出 01/29 23:39
推 ohlong : 蒸的丸子 01/29 23:40
→ IBIZA : 應該這樣 輸入資訊->理解+推理->轉成輸出 01/29 23:40
推 Aliensoul : openai裡面有中國的內鬼 外洩機密給中國公司 01/29 23:41
→ IBIZA : 中間的理解跟推理 是用數學模型 利用大量文本訓練 01/29 23:41
推 Yahweh : deepseek 的 weights 也是公開的阿 01/29 23:41
→ IBIZA : 找出自然語言每個片段意義之間的關聯性 01/29 23:42
→ linzero : 估狗到有針對一般蒸餾法做改良的,可以用更少的資料 01/29 23:42
→ linzero : 達到舊有的蒸餾效果,像google有開發個Distilling 01/29 23:43
→ linzero : Step-by-Step技術 01/29 23:43
→ wangrg : https://imgur.com/YXsUSJL 01/29 23:43
→ IBIZA : google上面那個"較少資料"是80%耶 01/29 23:44
推 lovepork : transformer 其實就是複雜一點的attention model 01/29 23:45
推 gn02118620 : 你用的是基於事實的分析來進行推理,這邊的人是用主 01/29 23:46
→ gn02118620 : 觀意識形態扣帽子來反駁 雙方沒有交集點 01/29 23:46
→ linzero : 那所謂80%,照我的閱讀理解,應該不是指相較傳統蒸 01/29 23:51
→ linzero : 餾可以減少的工作量,只能看有無專業的能解釋一下吧 01/29 23:52
推 lovepork : 我之所以提transformer 是因為它可以做transfer 01/29 23:52
→ lovepork : learning (遷移學習) 01/29 23:53
→ lovepork : 等於openai把95% transformer架構做好後 別人用此 01/29 23:53
→ lovepork : 架構做遷移學習去訓練調教很類似的LLM 01/29 23:55
→ IBIZA : transfer learning是直接提取模型的特徵到另一個 01/29 23:57
→ IBIZA : 模型用 你沒辦法把openai拿出來用 01/29 23:58
→ sunpedro0202: r1奠基在v3上,v3是ds自己train的不是?只是站在巨 01/29 23:59
→ sunpedro0202: 人的肩膀上,以及工程的精進使得成本較低 01/29 23:59
→ IBIZA : 每一個模型都是啊 01/30 00:00
推 DA3921999 : 如果是特定任務的小語言模型要騙騙補助/投資用上面 01/30 00:01
→ DA3921999 : 那套確實可行,但像DS這種大的這樣搞可能還更貴 01/30 00:01
推 KrisNYC : 推科普 01/30 00:01
→ IBIZA : o1 站在4的肩膀上 據說還是花了相當於2億的gpu時間 01/30 00:02
→ IBIZA : 這個不是R1成本較低的原因 01/30 00:02
推 kinda : 這問題直接問R1啊,他自己都說有可能了... 01/30 00:03
→ kinda : https://i.imgur.com/JGz4wJ8.jpeg 01/30 00:03
推 KrisNYC : v3蠻難用的 大概就跟others差不多 01/30 00:05
→ KrisNYC : r1套上去才有點看頭 01/30 00:05
→ IBIZA : https://i.imgur.com/DE9E1Ro.png 01/30 00:05
→ IBIZA : 這個是我直接問R1, deepseek R1是否有可能從chat 01/30 00:06
→ IBIZA : gpt o1蒸餾而來, R1的答覆 01/30 00:06
→ IBIZA : 其實他的第二段就是我講的 01/30 00:07
→ IBIZA : 你無法部署chatGPT o1, 所以你只能用API做蒸餾 01/30 00:07
推 ksjr : I大圖好像壞掉了? 01/30 00:07
→ IBIZA : 是不是有可能? 可能性不是零 01/30 00:08
→ IBIZA : 我貼的圖好像只能手機看 01/30 00:08
→ IBIZA : 是不是有可能?用API做蒸餾 可能性不是零 01/30 00:08
→ IBIZA : 但幾千萬上億次的調用... 01/30 00:08
→ kinda : 問o1-mini也說可能。專有名詞叫黑盒蒸餾 01/30 00:11
→ kinda : https://i.imgur.com/ykW4LOG.jpeg 01/30 00:11
→ jen1121 : 遇到一個不講武德的,用暴力式創新 01/30 00:11
→ BoyceChu : 股價說明一切XD 01/30 00:11
→ IBIZA : 可能性不為零 只能這麼說 01/30 00:12
→ IBIZA : 我這邊也是告訴你可能性不為零 但這個規模的調用 01/30 00:12
→ IBIZA : 難度極高 01/30 00:13
→ IBIZA : 而且說實在 R1一點也不像模仿o1 01/30 00:13
→ IBIZA : 對話過就知道了 01/30 00:13
→ kinda : 現在最好奇的是,如果真的大外宣為什麼不叫R1寫 01/30 00:14
→ saisai34 : 大外宣我是覺得不像啦 之前聽都沒聽過 @@a 01/30 00:15
→ kinda : 一直沒呼叫過o1,o1的chain of thought也是會條列嗎 01/30 00:17
→ newwu : OpenAI 指的是R1嗎 我怎麼覺得指的是v3 01/30 00:17
→ kinda : 還是跟o1-mini一樣直接生結果? 01/30 00:17
→ kinda : v3跟4o回答是有點像。但v3真的不強 01/30 00:18
噓 phoenixtwo : 難道OpenAI不是基於事實指控? 01/30 00:19
→ saisai34 : B站搜了一下 ds去年6-7月就有了 沒啥影片@@a 01/30 00:19
→ kinda : v3就便宜而已 https://i.imgur.com/RAjyN65.jpeg 01/30 00:19
→ saisai34 : 爆紅也是這幾天的事 說大外宣其實蠻怪的 @@a 01/30 00:19
→ kinda : 爆紅的是R1 上週1/22才公佈R1論文 DS去年就不強 01/30 00:22
→ newwu : 說盜用,也不是指百分百都靠蒸餾,關鍵部分調整方向 01/30 00:23
→ newwu : 蠻有可能的 01/30 00:23
推 Flyingheart : o1會條列 但是沒DS詳細 01/30 00:27
→ Flyingheart : DS思考步驟說得很細 O1只會大概說一點 01/30 00:28
→ kinda : 我呼叫o1-preview沒條列...o1有鎖api key不給中介 01/30 00:29
→ kinda : 價值3塊台幣的o1-preview 回答如下 01/30 00:29
→ Flyingheart : DS某些方面來說 解決部分AI黑箱思考的問題 01/30 00:29
→ kinda : https://i.imgur.com/Xxfekfz.jpeg 01/30 00:29
推 kotorichan : 學生學習老師 當然要更厲害啊 01/30 00:30
推 KrisNYC : 所以你就知道很多人完全沒用過完全是在瞎討論 01/30 00:30
→ KrisNYC : 它們不知道左下角R1沒點下去 就只是在用v3 01/30 00:31
→ KrisNYC : 甚至不知道v3 r1 o1 o3 在說什麼 01/30 00:31
→ KrisNYC : 如果不知道R1跟v3的差別 那討論什麼蒸餾? 01/30 00:32
推 ksjr : 照這樣理解以後中國一直抄(蒸餾)就好啦除非美國鎖國 01/30 00:33
→ Sianan : 阿所以要限制啊 別人花了大錢訓練的模型給你吃豆腐 01/30 00:36
→ Sianan : 以後誰還要花錢訓練 01/30 00:36
推 KrisNYC : 是有這樣的意見沒錯 昨天就有人說通用型的會非常捲 01/30 00:37
→ KrisNYC : 類似當年搜尋引擎大戰 近乎永遠免費給你用這樣 01/30 00:37
→ KrisNYC : 專用型的ASIC與相關軟體可能會更快實現獲利 01/30 00:38
→ ksjr : openAI現在是要收錢的阿 你要叫它們也課個關稅嗎 01/30 00:39
推 gowet : 有一說一,openai自己也是搜刮網路上別人的智財當 01/30 00:39
→ gowet : 基底訓練的,他好意思說吃豆腐? 第二,訓練花錢也是 01/30 00:40
→ gowet : 各個巨頭把毛利擴張到50%以上以近壟斷方式堆出來的 01/30 00:41
→ gowet : ,拿證實體公司,毛利給你15-25%,訓練成本會高到哪 01/30 00:41
噓 MoonCode : 01/30 00:42
推 fakelie : 可以蒸芝麻包ㄇ?芝麻包豪好粗 01/30 00:55
噓 sanos168 : 拿別人的蒸餾酒來提煉自己的酒,大概是這概念吧 01/30 01:02
推 watashino : 人真好 解釋給一堆笨蛋聽 01/30 01:04
推 wahaha99 : 剛剛OpenAI說去年下半有超大量API請求啊, 01/30 01:05
→ wahaha99 : 他以此推論的 01/30 01:05
推 vi000246 : 想也知道怎麼可能靠call api 很貴的 01/30 01:07
推 blueballer : 也不需要解釋這麼多,投資就是靠認知的落差賺錢, 01/30 01:16
→ blueballer : 看好看衰選一台車上,讓時間來決定勝者就是了 01/30 01:16
推 davis5566 : 所以openai說有call api就知道人家有抄襲?這只有 01/30 01:27
→ davis5566 : 智障青鳥會信 01/30 01:27
→ esheep : 以AI 模型來說,公開推理計算方式不是什麼新聞。大 01/30 01:38
→ esheep : 部分AI “系統” 比得是前處理功力,要先生出夠有意 01/30 01:38
→ esheep : 義的邊境資料,後段訓練才有意義。而訓練資料的清理 01/30 01:38
→ esheep : /篩選的成本,則不一定會被算進所謂的“訓練成本” 01/30 01:38
→ esheep : 。至於 針對特定,處理過的資料來源,以另一套系統 01/30 01:38
→ esheep : 的推演結果,直接當第二套的來源,在實務上不算罕見 01/30 01:38
→ esheep : ,實作上很多跨領域系統都這樣搞。但,學術上一般是 01/30 01:38
→ esheep : 不認可這種應用方式就是。 01/30 01:38
→ esheep : 一般是把第一套系統當成前處理,第二套系統的範圍比 01/30 01:52
→ esheep : 前套小但針對特定領域更細分的預測系統。整體訓練成 01/30 01:52
→ esheep : 本會更低,特定小範圍的結果品質會比的第一套系統好 01/30 01:52
→ esheep : 。這種算是特化架構,缺點是:擴張困難。處理的問題 01/30 01:52
→ esheep : ,領域數目增加到一個程度,整體效能(結果的品質) 01/30 01:52
→ esheep : 會比原系統差... 01/30 01:52
推 AudiA4Avant : 思考步驟可以用prompt,看回答不能判斷 01/30 03:13
→ dingading : 讚耶 拿openAI來開源 叫蒸餾 簡直是改包裝加12道功 01/30 03:53
→ dingading : 法 01/30 03:53
噓 ketter : 不會去科技版討論? 01/30 05:11
噓 mdkn35 : 模型是程式碼??18124你可以不要LLM問幾個問題就出 01/30 07:32
→ mdkn35 : 來造謠了嗎?我建議你先去了解pytorch跟transformer 01/30 07:32
→ mdkn35 : 不然一知半解出來發文真的讓人不忍直視… 01/30 07:32
推 straggler7 : 科技版當年嘲笑Chatgpt的現在質疑DeepSeek 水準低 01/30 09:06