[問卦] 用PTT來訓練AI語言模型會怎樣

看板 Gossiping
作者 Antihuman ()
時間 2023-03-11 21:45:21
留言 16則留言 (8推 2噓 6→)

PTT是台灣最大的討論區之一,包含了許多不同主題的討論版,從政治、經濟、科技、娛樂 到生活、旅遊等等,因此PTT的資料可以提供豐富的語言資源,進行大型語言模型的訓練可 能會有以下的影響: 增加模型的多樣性:PTT 的資料來源眾多,而每個版的用語、詞彙、語言風格都不同,因此 使用PTT的資料訓練大型語言模型可以增加模型的多樣性,使其更能夠應對不同領域的自然 語言處理任務。 提升模型的台灣文化認知:PTT是一個台灣本土的討論區,其中的文化內容和用語與台灣文 化緊密相關。訓練大型語言模型使用PTT資料,可以使模型更加了解台灣文化和風俗,更好 地處理和生成相關的自然語言。 面臨資料品質問題:PTT是一個公開的討論區,其中包含了許多用戶所發表的訊息,這些訊 息的品質可能不同,有些可能包含不合適的語言、錯誤的拼字和語法等問題。因此在使用PT T資料訓練語言模型時,需要注意濾除低質量的資料,以免對模型的訓練產生負面影響。 總結來說,PTT的資料對於大型語言模型的訓練具有一定的幫助,但需要注意資料品質問題 ,以免對模型的訓練產生不利影響。此外,也需要注意到PTT資料的局限性,不同於網際網 路上的其他資料,PTT資料集的涵蓋面和語言風格可能會有所局限,因此訓練出來的語言模 型在應用於其他領域時,可能需要進行適當調整。 --
※ 批踢踢實業坊(ptt.cc), 來自: 111.235.254.76 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1678542324.A.002.html

k385476916: 沒空 223.137.254.82 03/11 21:45

dayend: ㄏㄏ~111.246.211.138 03/11 21:45

pttOwO: 肛 36.228.19.236 03/11 21:46

a27588679: 回答會有很多月工 180.177.33.135 03/11 21:46

robrob99: 會出現一堆 哈哈哈哈 五樓 30cm123.194.136.130 03/11 21:46

q2203649: 問他問題Ai只會回:肛 223.140.176.37 03/11 21:46

Klan: 三句不離塔綠班 49.216.174.163 03/11 21:46

v7q4: 不管問什麼都會回答:肛 111.248.118.76 03/11 21:47

IntelNNP: 師大某剽竊狂魔當上教授的,會說她做完了 153.231.83.220 03/11 21:48

LawLawDer: 肛 223.136.70.253 03/11 21:49

uiorefd: 不是叫你肛 就是塔綠斑 或是叫你問五樓 220.134.66.178 03/11 21:50

kidd085: 會被吉125.224.207.192 03/11 21:50

bernie1: 完了 61.231.189.150 03/11 21:50

lohaloha: 回答不出來會直接說你是塔綠班 180.217.7.167 03/11 21:51

chigo520: 變成暴怒肥宅 125.228.244.66 03/11 21:53

darkblue6404: a作者:darkblue6404 他的ChatPTT 125.230.162.3 03/11 21:54

您可能感興趣