[新聞] OpenAI：紐約時報僱用駭客攻擊我

看板	Tech_Job
作者	jackliao1990 (j)
時間	2024-02-28 15:10:56
留言	11則留言 (6推 3噓 2→)

看板Tech_Job

https://www.qbitai.com/2024/02/124120.html 夢晨發自凹非寺堂堂AI巨頭，怎麼就被一家報紙僱用駭客攻擊了？《紐約時報》訴OpenAI侵犯版權索賠數十億美元案最新進展：在最新提交的法庭文件中，OpenAI聲稱《紐約時報》花錢找駭客攻擊ChatGPT，人為製造侵權結果。使用欺騙性手段進行數萬次嘗試，才得到高度異常結果。這項訴訟要是輸了，對OpenAI來說可能是毀滅性打擊。數十億美元罰款都是小事了，根據法律界的分析，連ChatGPT都可能被迫全部擦除，重頭開始訓練。大家都知道，美國法律要遵守先前判例的原則。在過去幾十年的科技公司vs版權方的案子中，法院可不總是站在科技公司這邊。這次OpenAI主張《紐約時報》僱用駭客，真的非常關鍵了。紐約時報如何攻擊ChatGPT 去年12月，《紐約時報》起訴OpenAI和他的微軟爸爸，表示ChatGPT和Copilot都未經許可利用其內容訓練。當時，《紐約時報》展示了足足 100個GPT-4一字不落背出真實報道段落的例子。這樣一來，ChatGPT就可以算是報紙的競爭品。 OpenAI這邊，辯稱這是一個漏洞，並承諾已經在修復。具體來說，當AI產生與訓練資料非常相似的樣本時，可能發生「資料回流」（ regurgitation of training data），類似於人類聽到上句就會條件反射般的接下句，誰也攔不住。他們認為《紐約時報》利用這個漏洞，使用特殊的提示詞要求ChatGPT輸出特定文章的開頭，並繼續要求輸出下一句話。 OpenAI預計需要反覆嘗試上萬次才能產生這些整篇的文章，而且還不是按順序的，而是「分散和無序的引用」。正常人不可能這麼使用ChatGPT，也不會把它當成《紐約時報》的替代品。 OpenAI指責《紐約時報》故意誤導法庭，「使用省略號來掩蓋」ChatGPT吐出報道片段的順序，造成了「ChatGPT產生了文章的連續和不間斷片段的錯誤印象」。而《紐約時報》從來沒有披露過他們產生這些證據的具體提示詞，以及是否修改了系統提示詞等等細節，就挺心虛的。至於提示詞攻擊算不算駭客行為，有網友表示怎麼不算，如果認可提示詞工程真的算一種工程，那提示詞攻擊就算攻擊。現在OpenAI主要從兩個地方反擊：一是主張這種提示詞攻擊公然違反了OpenAI的產品使用條款。二是主張網路上公開內容是可以合理使用的。這就要抱緊谷歌大腿了，20年前谷歌整了個大活，掃描數百萬本圖書放到搜尋引擎上，被一堆出版商和作家協會給告了。官司反反覆復打了10多年，最後谷歌艱難的贏了，被判這些數據是合理使用。當時裁決認為用戶只能看到圖書的簡短片段，永遠無法從受版權保護的書籍中恢復較長的段落。谷歌製作書籍的數位副本以提供搜尋功能是一種變革性的使用，它透過提供有關原告書籍的資訊來增加公眾知識，而不向公眾提供書籍的實質替代品。不光OpenAI，同樣面臨版權訴訟的Stability AI等AI影像生成公司，都在堅持他們做的事與Google當年一樣：都是「學習訓練資料中關於作品的訊息，但不複製作品本身的創意表達」。然鵝還有一個有爭議的地方，AIGC產品確實會產生創意的作品，與接受訓練的作品直接競爭。所以這一批AI公司面臨的危機，比Google當年面臨危機還要大一些。再不賣數據就太晚了實際上，像《紐約時報》這樣和AI鬧得不愉快的內容公司是少數。更多網路公司都在爭先恐後出售自己的數據，反正這些AI公司又不是沒錢。 Sora視頻，就被找出明顯有OpenAI合作夥伴 Shutterstock 素材的影子。上週，「美國貼吧」 Reddit 剛跟Google簽了協議，6千萬美元一年，讓Google可以即時取得論壇資料用於AI訓練。 OpenAI這邊肯定早就用上了，畢竟山姆奧特曼本人就和Reddit公司關係匪淺，而且早年比 GPT-1還早的原型研究，就是在Reddit數據上訓練聊天機器人。現在 Tumblr 和 WordPress 也趕緊跟進，把用戶資料賣給OpenAI和Midjourney。雖然他們的用戶聽到這個消息都挺不高興的，但是沒辦法，當初註冊帳號的時候可是必須同意使用條款，其中把數據歸屬早就安排明白了。當然AI公司買過來這些數據也不是直接塞AI嘴裡就好使的，學術界現在也研究如何有效率地運用。剛剛還有語言模型訓練的資料選擇綜述出爐，提出用於比較和對比不同的資料選擇方法的框架，也倡議：加速資料選擇研究，如開發直接評估資料品質的指標，減少對昂貴模型訓練的依賴。更好地理解資料分佈的特性，以便更精確地選擇資料。將計算時間從模型訓練轉移到資料處理。隨著AI生成的內容在網路上鋪開，後面再訓練大模型的都繞不開使用AI生成的數據了，就說多少家大模型「承認」過自己是OpenAI訓練的了吧。同樣中文資料也繞不開文心一言，GoogleGemini都鬧過笑話（已修復）。坐擁大量人類古法手打數據的網路公司，再不抓緊賣，AI就能自給自足了。參考連結： [1]https://s3.documentcloud.org/documents/24443836/nysd-case-612697.pdf [2]https://arstechnica.com/tech-policy/2024/02/openai-accuses-nyt-of-hacking-chatgpt-to-set-up-copyright-suit/ [3]https://arxiv.org/abs/2402.16827 --

※ 批踢踢實業坊(ptt.cc), 來自: 114.38.34.166 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1709104259.A.B29.html

噓 justdoit : 現在是扯到AI,就可以貼來tech_job嗎? 02/28 15:57

推 NDark : 好文已收 02/28 16:24

→ gaowei16 : 所以一樓認為啥文可以貼老人開世一下 02/28 22:00

推 li118 : GG祖墳文、千萬年新文、主管吃女下屬文才可以發 02/29 01:18

噓 nicolaschen2: 看看一樓能貼出啥毛 02/29 04:41

推 darkangel119: 白蓮教再起XD 02/29 06:45

推 pacino : 這篇文不錯啊！ 02/29 07:16

推 doranako : openai 連這種鬼話都講得出來 02/29 07:49

推 silence0925 : 這篇很棒啊@@ 02/29 10:35

→ k798976869 : ai拿來自動化網路攻擊很有用 02/29 12:07

噓 justdoit : 很棒是怎麼棒?可以讓你找工作喔?我不會貼費雯啦 02/29 13:39

[新聞] OpenAI：紐約時報僱用駭客攻擊我

您可能感興趣

熱門文章