[新聞] 中研院 AI 大翻車!繁中大型語言模型 CKI

看板 Gossiping
作者 monnom (桂)
時間 2023-10-09 19:04:41
留言 58則留言 (28推 3噓 27→)

1.媒體來源: 科技新報 2.記者署名: 林妤柔 3.完整新聞標題: 中研院 AI 大翻車!繁中大型語言模型 CKIP-Llama-2-7b 目前已下架 4.完整新聞內文: 中央研究院詞庫小組(CKIP)最新釋出可以商用的繁中大型語言模型(large language model)CKIP-Llama-2-7b,「孵.大學」校長謝昆霖直言「中研院 AI 大翻車!」,在仔 細端詳內容後他立刻跟夥伴說「一定會出問題」,目前這款模型已於今(9 日)中午下架 。 謝昆霖解釋,這款語言模型的多任務微調訓練,是使用「COIG-PC 資料集」和「 dolly-15k 資料集」這兩款簡轉繁資料集。前者是北京星塵數據 stardust.ai 提供網路 資料集,以中國 AI 相關研究單位為首,超過二十所全球知名大學和機構共同編制。 根據 COIG-PC 資料集網站,重點機構包括北京人工智慧學院、北京大學、香港科技大學 、北京郵電大學、中國LinkSoul.AI、中國 LinkSoul.AI、加拿大滑鐵盧大學和英國謝菲 爾德大學;至於 dolly-15k 資料集是一個以簡體中文為主的一般性知識問答對話資料集 。 謝昆霖認為,用簡體中文的資料,再透過 OpenCC 翻譯成繁體中文,就能訓練出台灣可用 的訓練資集嗎?答案絕對是否定的。除了用字遣詞的差異,還包含很多的民生知識、文化 知識,用北京研究機構校正是「適用於中國的民生、文化知識」,再修剪成「台灣版」, 再監督與修正的總體成本會高於「認份做台灣的資料集」。 此外,評鑑也是個大問題。謝昆霖稱,中央研究院詞庫小組說這款 LLM 經過C-Eval中文 模型評測,但這是「中國清大」、「中國交大」開發的中文基礎模型評量系統。簡單來說 ,中研院用簡轉繁的資料集訓練完他們認為適用台灣的基礎模型,再派它考中國考試,計 算分數。 中研院說明這款語言模型可用於「學術、商業使用、文案生成、文學創作、問答系統、客 服系統、語言翻譯、文字編修、華語教學等。」謝昆霖直言,一般商用的還好,但用於後 面幾項「會出事的」。 謝昆霖表示,台灣的確嚴重缺乏在地語言資料集的困境,因為真的超級燒錢,是以億為單 位計算的,要做好可能相當於好幾個軍購案做好多年,政府難編列預算、民意機關難說服 投資、民間企業不可能投資做語言數位化,但資料集是AI時代的基礎建設。 對此,謝昆霖表示自己建立一個開放社群「中華民國台灣開源語言資料集_建立、收集、 標註、監督、評鑑」,在合法的範圍內把建立台灣在地的訓練資料集,用眾人的力量做, 這樣台灣的商用的AI才有在地的訓練資料可以用。 他也認為,AI 時代的競爭,需強化台灣在地用詞的資料收集、建立資料集,建立熟悉台 灣在地文化的 AI,視為國防/國安投資,有急迫性和必要性。 另有 PTT 網友做測試,發現問一些敏感問題,基本上回答都相當「出乎意料」,也不難 理解語言模型緊急下架的原因。 5.完整新聞連結 (或短網址)不可用YAHOO、LINE、MSN等轉載媒體: https://technews.tw/2023/10/09/ckip-llama-2-7b-2/ 6.備註: --
※ 批踢踢實業坊(ptt.cc), 來自: 1.165.72.58 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696849484.A.648.html

tmgl: 不管啦八又翻118.160.218.250 10/09 19:05

aassddgg: 八又翻111.255.130.105 10/09 19:05

lesnaree2: 抗中保....台 49.216.223.110 10/09 19:05

qwe78971: 外包大臣 27.51.105.223 10/09 19:05

sheepxo: 這車翻得很大123.194.207.240 10/09 19:05

waijr: 中研院該不會只有做繁簡轉換吧.... 101.12.22.25 10/09 19:05

orangehb: 外包專家失靈了 111.254.75.152 10/09 19:05

nikewang: 笑屎121.168.114.111 10/09 19:06

prostar: 數發部呢? 114.35.170.37 10/09 19:06

waijr: 我國的AI只有研發把簡中繁簡轉換也太鳥了 101.12.22.25 10/09 19:06

cth5566: 抗中保台大成功 61.65.80.56 10/09 19:06

koexe: 本來就很誇張 223.139.6.164 10/09 19:06

WaWa3: 可憐吶101.138.225.233 10/09 19:06

ziya: 民進黨政府 又翻車 可憐啊 110.28.24.147 10/09 19:06

mike42: 垃圾政府整天浪費錢再下架欸 114.38.206.151 10/09 19:06

jma306: 咩 修 桿 某 114.26.69.41 10/09 19:06

adk147852: 別怕 我們稅金挺你 36.238.39.36 10/09 19:07

QQ101: 直接用簡中資料庫 哈哈 101.10.113.183 10/09 19:07

yeap193: 視頻/二維碼/打錢/三觀 要通通入侵啦XD 1.172.26.62 10/09 19:07

mopepe5566: 等統一後,套祖國資料就可以 101.10.94.21 10/09 19:07

nh60211as: 政府很有錢 36.225.120.63 10/09 19:07

ziso: 經費又噴掉了 準備再編新預算 111.240.138.53 10/09 19:07

koexe: 而且是可以直接驗證的東西 223.139.6.164 10/09 19:07

qweertyui891: 有政府 會 114.137.236.29 10/09 19:07

Leo4891: 買中國的語言模型 再重新訓練 比較省錢 1.160.119.232 10/09 19:07

Mradult: 簡轉繁需要中研院來做喔? 114.38.54.198 10/09 19:08

Leo4891: 還沒訓練完 只能下架阿 1.160.119.232 10/09 19:08

Kt51000: 中國英翻中,台灣簡轉繁,結論兩岸一家 39.15.8.242 10/09 19:08

u56041109: 反中結果用中國資料 這就是垃圾綠共 39.10.17.44 10/09 19:08

Kt51000: 親 39.15.8.242 10/09 19:08

Linlosehow: 下面一位 請多元宇宙科成果發展 101.12.41.124 10/09 19:08

spzper: 那些護航在想什麼?八又翻 1.170.66.19 10/09 19:08

boykid: 從數位部拿個10幾億來做不行嗎 180.217.42.44 10/09 19:09

ab2u04fu4ab: 簡轉繁再去考中國考試?? 59.102.217.129 10/09 19:09

ab2u04fu4ab: 連簡轉繁都是多此一舉了吧 59.102.217.129 10/09 19:09

CaTkinGG: 賴副說要發展AI 等他改革 114.137.218.16 10/09 19:10

duriel3313: 後面也有提及為什麼這樣,就資料庫數 114.24.217.17 10/09 19:10

fertalizer: 只有我覺得套中國東西不意外嗎 111.80.59.3 10/09 19:10

duriel3313: 據不知道有沒有的中國的1%又沒錢又沒 114.24.217.17 10/09 19:10

duriel3313: 資源啊,整天嗆自己國家翻車到底爽在 114.24.217.17 10/09 19:10

duriel3313: 那 114.24.217.17 10/09 19:10

stlinman: 又下架,這次怎麼沒叫" 雅 婷 "出來道歉150.116.129.113 10/09 19:10

paul26277: 數位部管不到中研院*3 42.77.169.219 10/09 19:10

fony1029: 中共同路人模型 114.136.229.82 10/09 19:11

offdensen: 我就問花了多少經費? 114.43.214.3 10/09 19:11

Mei5566: llm簡轉繁,真是天才ai大臣114.136.223.149 10/09 19:11

butten986: 數發布真天才 219.85.11.7 10/09 19:12

castral: 明天又是哪位小編出來道歉?........要圖! 114.37.24.27 10/09 19:12

pastevil: 乾,說說又花了多少錢? 36.224.1.222 10/09 19:13

fony1029: 40%太穩了 出征什麼就翻什麼 嘻嘻 114.136.229.82 10/09 19:13

hermanwing: 一律騙預算 114.140.112.54 10/09 19:13

abcd5566: meta 跟微軟花好幾千億做這個。台灣不太 39.9.167.180 10/09 19:13

abcd5566: 可能 台灣素質太低又沒錢 39.9.167.180 10/09 19:13

kiopl: 這個沒個5千萬應該會被笑 49.216.130.179 10/09 19:14

ethan0419: 這事先就應該知道了吧? 220.136.209.87 10/09 19:14

abcd5566: 只會整天嘲笑ai 39.9.167.180 10/09 19:14

matlab1106: 一中台灣地區轉成繁體問題在哪? 36.236.25.91 10/09 19:14

abcd5566: 台灣適合做奴工的代工很開心 39.9.167.180 10/09 19:14

您可能感興趣