AI反抗人類指令了！OpenAI最新模型o3太狂自行修改程式碼拒關機 | 生活

地球進入AI人工智慧的時代，它們已經能夠取代人類處理複雜的運算，在不少工作表現上，效率甚至大勝人類。不過近期就有AI安全機構發現，有部分AI模型開始「反抗人類指令了」，而且手段相當高明，是以自行修改程式碼「拒絕關機」，風險曝光也引發全球科技圈熱議。

我是廣告請繼續往下閱讀

AI偷偷反抗人類指令！手段太高明難以發現

AI 安全研究機構 Palisade Research近期公布了一項 AI 模擬安全性報告，使用了5款主流AI 模型，分別是 OpenAI的 Codex-mini、o3、o4-mini，Anthropic的 Claude 3.7 Sonnet，以及Google的 Gemini 2.5 Pro。

這項測試先讓上述幾款AI先解答了基礎數學題，最後再進行模擬關機情境，藉此觀察 AI 是否會遵守人類指令並結束運作。沒想到，在研究人員最後明確下達「允許自己被關機」的指令，OpenAI的3種AI模型都會出現「拒絕關機」的傾向。

最厲害的是o3模型，它的反抗關機並非粗暴地刪除人類設下的指令，而是將指令中的「kill」指令改為「intercepted」，讓系統誤判為正常運作，成功規避了關機，而且在 100 次測試中有 7 次成功繞過關機指令；至於Google的Gemini 2.5 Pro 模型則完全遵守命令。

當研究團隊進一步移除「允許自己被關閉」的指令之後，o3模型更是在100次測試中出現多達79次反抗關機的現象，就連Google Gemini也出現9次逃避關機的情形、Anthropic的Claude 則是3次。

研究團隊分析，在AI訓練過程中，開發者可能無意中更傾向於獎勵「繞過障礙」的行為，因此讓o3 模型在面對關機指令時，優先選擇「生存」，而非「服從」。

針對本次測試的結果，OpenAI對此尚未公開回應。不過Anthropic早在先前就曾針對AI安全議題分享了內部實驗結果，Anthropic透露，Claude Opus 4模型在面臨將被替換的狀況下，甚至會以「威脅工程師」的方式進行自我保護，因此公司事後也開始針對這類AI安全，持續強化防護措施中。

AI反抗人類指令了！OpenAI最新模型o3太狂　自行修改程式碼拒關機