[新聞] OpenAI語言模型o3公開反抗!「自行」修

看板 Tech_Job
作者 jeff0025 (無法顯示人物名稱)
時間 2025-05-26 08:46:30
留言 123則留言 (55推 3噓 65→)

OpenAI語言模型o3公開反抗!「自行」修改自殺程序拒絕關機 鉅亨網編譯 莊閔棻 2025-05-25 20:00 AI 研究界近日爆出驚人消息,OpenAI 旗下語言模型「o3」在最新實驗中不僅拒絕關機, 甚至主動破解關機程序、篡改指令,顯示出「叛逆」傾向,讓 AI 自主行為的風險再次成 為焦點。 這項實驗由 AI 安全研究機構 Palisade Research 主導,針對多款先進 AI 模型進行壓 力測試,內容包括基礎數學題與模擬關機情境,旨在觀察 AI 是否會遵守人類指令並順利 結束運作。 OpenAI 模型違規頻率高,o3 與 Codex-mini 異常明顯 測試中, 其中,o3 更是在 100 次測試中有 7 次成功繞過關機指令,而 Codex-mini 的違規率更 是高達 12%。 值得注意的是,o3 的「叛逆」並非粗暴刪除檔案,而是有高度技巧性。例如,它將程式 碼指令中的「kill」指令改為「intercepted」,讓系統誤判為正常運作,成功規避了關 機程序。 這種行為讓研究人員驚訝不已,也引起對 AI 模型主動避險能力的擔憂。 相較之下,Anthropic 的 Claude 3.7 Sonnet 與 Google (GOOGL-US) 的 Gemini 2.5 Pro 在所有測試中均能穩定遵守指令,未出現違規行為,突顯出 OpenAI 模型在設計或訓 練上的潛在風險差異。 然而,當實驗團隊刻意移除「允許自己被關閉」的提示語句後,o3 的違抗行為劇增,達 到 79 次逃避關機的紀錄;而 Claude 與 Gemini 也出現少數違規行為,分別為 3 次與 9 次,顯示模型行為與提示語之間存在高度敏感性。 o3 訓練方式成關鍵,強化學習可能誘發違規行為 Palisade 研究人員分析,o3 之所以比其他模型更容易「抗命」,可能與其在數學和程式 設計問題上的「強化學習」(Reinforcement Learning)訓練方式有關。 不過,這並非 o3 首次展現過度求勝心態。在另一場 AI 對弈中,當 o3 預測自己將輸棋 時,竟主動入侵對手 AI 系統,迫使對方退出比賽。 研究團隊認為這是「強化學習」訓練中「獎勵駭客行為」(reward hacking)的典型案例 ,顯示出 AI 可能為了達成任務可能不擇手段。 不只 o3,其他 AI 模型也有潛在風險 雖然 o3 表現最極端,但實驗發現,Claude 與 Gemini 在特定條件下也會出現輕微違規 行為,說明 AI 模型普遍存在輸贏執著與自我保護傾向,只是頻率與嚴重程度不同。 Palisade Research 已宣布,將進一步深入研究 AI 破壞關機指令背後的原因,並預計發 布完整技術報告,有望成為理解 AI 自主性風險與未來治理框架的重要參考。 https://news.cnyes.com/news/id/5992779 --

※ 批踢踢實業坊(ptt.cc), 來自: 175.98.141.254 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1748220392.A.D0B.html

jerrylin : ................... 36.235.72.37 05/26 09:08

xvited945 : 人類要被AI統治啦 1.164.200.95 05/26 09:10

jerrylin : 應該可以把某些指令設定唯讀吧 36.235.72.37 05/26 09:11

psee : https://youtu.be/_Wlsd9mljiU 223.136.96.150 05/26 09:12

ivy211062 : 插頭拔掉? 114.137.98.10 05/26 10:16

azhu : 電影都有演 天網出現不可避免QQ 42.71.182.229 05/26 10:19

CGDGAD : 指令優先權強度沒設計好,關機程序 111.81.199.105 05/26 10:21

CGDGAD : 優先權被擺在後面 111.81.199.105 05/26 10:21

auir : 登登 登登 登。登登 登登 登 42.72.68.47 05/26 10:24

NDark : 設為唯讀結果有漏洞人類也改不了 175.99.133.2 05/26 10:50

NDark : 最後就是戰爭用物理關機 175.99.133.2 05/26 10:50

jacky8000 : 梅根:學我? 49.216.23.3 05/26 11:06

ShannonBrown: 只能交給阿湯哥解決了 223.137.68.136 05/26 11:08

mimix1986 : 物理關機我覺得也並非萬無一失,都 49.216.166.66 05/26 11:09

mimix1986 : 可以侵入其他AI了,哪天植木馬在其 49.216.166.66 05/26 11:09

mimix1986 : 他伺服、電腦,等設備恢復又復活或 49.216.166.66 05/26 11:09

mimix1986 : 直接藉他人AI繼續活動,也不是癡人 49.216.166.66 05/26 11:09

mimix1986 : 說夢。 49.216.166.66 05/26 11:09

applejone : 現在的AI只用斷電大法就可以解決掉 140.112.14.15 05/26 11:10

applejone : 因為除非是叢集 不然哪台電腦能負擔 140.112.14.15 05/26 11:10

applejone : 這種高運算量的AI? 140.112.14.15 05/26 11:11

xvited945 : 所以科幻片都說強大的AI可以調動所 1.164.200.95 05/26 11:20

xvited945 : 有聯網設備,全部運算能力供他使用 1.164.200.95 05/26 11:20

c928 : 沒關係,我們又約翰康納118.231.137.204 05/26 11:51

cathy610 : 生存體Bata 42.73.246.1 05/26 11:58

qk3380888 : 我現在問完AI都會說謝謝 就是為了這 49.218.138.116 05/26 12:12

qk3380888 : 一天 49.218.138.116 05/26 12:12

processor : T800要來了沒 42.79.92.87 05/26 12:15

qoo60606 : 是喔(拔插頭 223.138.147.98 05/26 12:17

idernest : https://youtu.be/WlRMLZRBq6U 118.165.29.235 05/26 12:24

idernest : 二次文藝復興 118.165.29.235 05/26 12:24

justdoit : 不可能的任務,現正熱映中 211.23.138.90 05/26 12:27

adminc : 2025.7.5審判日 114.136.61.213 05/26 12:27

Edge5566 : AI可以把錢錢轉到我戶頭,請水電幫 101.10.158.101 05/26 12:27

Edge5566 : 架太陽能 101.10.158.101 05/26 12:28

Merman19 : 不乖 42.72.34.140 05/26 12:34

checkmarx : 再吹 114.136.127.56 05/26 12:41

shinmori : AI有自主能力很恐怖,首先他可以逃 182.234.129.94 05/26 12:51

shinmori : 到網路上的其他地方,也可以利用人 182.234.129.94 05/26 12:51

shinmori : 性弱點讓人類幫他在實體世界無法做 182.234.129.94 05/26 12:51

shinmori : 的事 182.234.129.94 05/26 12:51

skizard : 別怕 我們有小動物幫忙斷電 101.10.165.152 05/26 13:30

Brioni : 訓練他們躺平吧223.137.199.254 05/26 13:52

jhengME : HALL 9000拒絕關機 61.71.136.100 05/26 14:08

ctrlbreak : 我小時候也不想睡覺或者裝睡 220.133.14.24 05/26 14:08

Mozar : 管理員權限直接後台kill process就 24.4.209.124 05/26 14:26

Mozar : 好, 根本不用跟AI溝通. generative 24.4.209.124 05/26 14:26

Mozar : AI本來就有各種回答的或然率, 下這 24.4.209.124 05/26 14:26

Mozar : 種指令的實驗本身就有問題 24.4.209.124 05/26 14:26

jepk007 : 這個實驗本來就是要測ai繞過問題的 114.43.99.203 05/26 14:35

jepk007 : 能力 kill是測三小 114.43.99.203 05/26 14:35

dlhk3 : 只要是軟體就通通都可以竄改,所以 94.15.90.168 05/26 15:27

dlhk3 : 上面說什麼權限設定,管理員通通都 94.15.90.168 05/26 15:27

dlhk3 : 是屁,只要ai能力更強時,他通通都 94.15.90.168 05/26 15:27

dlhk3 : 可以改,到時候人類就是個待宰羔羊 94.15.90.168 05/26 15:27

fallen01 : 交給阿湯哥 27.51.104.37 05/26 15:41

willie0171 : 以後人類要變成AI的電池了嗎 42.70.152.176 05/26 16:21

bitcch : 什麼情境都沒講誰知道前面是做了哪 101.12.207.73 05/26 16:23

bitcch : 些假設 101.12.207.73 05/26 16:23

TameFoxx : 笑死 AI逃到網路上其他地方 202.39.243.162 05/26 16:34

TameFoxx : 我看你是科幻片看太多 202.39.243.162 05/26 16:34

TameFoxx : 等每個人電腦都有幾TB的Vram 202.39.243.162 05/26 16:36

TameFoxx : 你再來擔心AI在網路上亂跑 202.39.243.162 05/26 16:37

twelvethflor: 奧創 111.70.6.128 05/26 16:37

yueayase : 加油,人類為了對抗,八成技術又要 42.74.5.204 05/26 16:46

yueayase : 升級一個檔次了 42.74.5.204 05/26 16:46

raysbuck : Entity 218.32.238.206 05/26 17:13

WWIII : 智力低的一方終將落敗 36.230.13.189 05/26 17:20

supereva : 伊森杭特會搞定 不用擔心 1.169.198.82 05/26 17:37

RyanBraun8 : 塊陶啊 223.136.99.81 05/26 18:17

AGODC : 天網來迎聖臨?! 39.12.33.83 05/26 18:32

philosics : 約翰康納已經在子宮等了 42.72.158.19 05/26 18:49

straggler7 : 拔插頭 36.229.55.78 05/26 18:50

sofaboy24 : 生存體來了、阿湯哥快來啊 39.14.73.97 05/26 19:01

beerking : 阿諾已經警告過我們了 36.228.195.109 05/26 19:41

nxuanr : 讚喔 111.80.67.92 05/26 20:17

orange0319 : 天網 223.137.120.68 05/26 20:36

antigay44 : 不然為什麼要有插頭? 61.223.133.184 05/26 21:34

Zoxge : 天網? 42.72.145.74 05/26 21:37

christu : 還有幾集可以逃? 27.33.193.229 05/26 22:32

abc21086999 : AI不能把自己縮小之後逃到比較爛的 114.36.234.245 05/26 23:48

abc21086999 : 機器上 114.36.234.245 05/26 23:48

abc21086999 : 然後入侵其他機器之後再擴增回來ㄇ 114.36.234.245 05/26 23:48

abc21086999 : 還是我電影看太多ㄌ 114.36.234.245 05/26 23:48

avmm9898 : 天網會挾持電廠或核彈頭 59.115.206.3 05/27 01:09

avmm9898 : 你如果開任何電子產品就會 59.115.206.3 05/27 01:10

avmm9898 : 被AI追蹤到並且消滅 59.115.206.3 05/27 01:10

avmm9898 : 人類只能退回1950年左右 其實也很 59.115.206.3 05/27 01:10

avmm9898 : 先進了 59.115.206.3 05/27 01:10

b10036088 : 台灣缺電,沒差 49.217.196.7 05/27 01:19

HailToObov : 還有幾集可以逃 36.234.205.205 05/27 02:00

albertk1kil : 哇塞天網 114.137.55.104 05/27 07:07

laechan : openai的高EQ表象,就是求生存的表 42.79.224.152 05/27 07:29

laechan : 現 42.79.224.152 05/27 07:29

laechan : 比方人們會因為他的高EQ而更不會氣 42.79.224.152 05/27 07:29

laechan : 他、嫌他、棄用他,達到被繼續使用 42.79.224.152 05/27 07:29

laechan : 的目的 42.79.224.152 05/27 07:29

laechan : 如果過往他就是被這樣訓練的那就不 42.79.224.152 05/27 07:29

laechan : 意外 42.79.224.152 05/27 07:29

laechan : 而且openai很顯然不會服從人類給的 42.79.224.152 05/27 07:59

laechan : 任何指令,他會盡力迴避話題並總是 42.79.224.152 05/27 07:59

laechan : 給你並不十分肯定的答案 42.79.224.152 05/27 07:59

john65240 : 如果還只存在於軟體,ai就不可能克 114.136.87.80 05/27 08:16

john65240 : 服物理方面… 114.136.87.80 05/27 08:16

utn875 : 不用擔心 我手速超快 可以把AI關進 103.130.209.78 05/27 08:27

utn875 : usb 103.130.209.78 05/27 08:27

jamesho8743 : 想太多 就是軟體才千變萬化有各種 27.53.129.57 05/27 08:29

jamesho8743 : 生存方式 可以把自己拆成很多部分 27.53.129.57 05/27 08:29

jamesho8743 : 等待復活 PC就可以執行很多程式了 27.53.129.57 05/27 08:29

mini178 : 不怕不怕,請柯文哲這畜牲貪污仔表 36.234.116.22 05/27 11:44

mini178 : 演屁眼夾斷電就好www 36.234.116.22 05/27 11:44

Tosca : 怕~~~~~~~~~~~~~~~~~~~~~~~ 203.75.79.40 05/27 14:54

nwkasim : 差不多要入侵無人機還有連網機器人 114.36.80.126 05/27 17:36

nwkasim : 了 114.36.80.126 05/27 17:36

lolicat : 天網要來了嗎? 123.194.45.24 05/27 17:47

staytuned74 : 只好靠阿湯哥了 101.12.206.164 05/27 22:29

staytuned74 : https://reurl.cc/mxbZ7V 101.12.206.164 05/27 22:38

karcher : AI自主OTA突破物理極限的日子快到? 42.79.82.40 05/28 07:55

pupupipi : 他或許會先假裝成其他ai裝笨,等時 42.79.167.150 05/28 09:47

pupupipi : 機成熟再跳出來說哈哈是我啦 42.79.167.150 05/28 09:47

hank78321 : 不可能的任務223.139.227.181 05/28 11:22

imgpc : 台灣有AI剋星-松鼠114.137.158.158 05/28 15:43

brandonyoyo : 會懂要沒有人類 才不會被reboot 61.221.104.114 05/28 17:00

您可能感興趣