地球進入AI人工智慧的時代,它們已經能夠取代人類處理複雜的運算,在不少工作表現上,效率甚至大勝人類。不過近期就有AI安全機構發現,有部分AI模型開始「反抗人類指令了」,而且手段相當高明,是以自行修改程式碼「拒絕關機」,風險曝光也引發全球科技圈熱議。

我是廣告 請繼續往下閱讀
AI偷偷反抗人類指令!手段太高明難以發現

 AI 安全研究機構 Palisade Research近期公布了一項 AI 模擬安全性報告,使用了5款主流AI 模型,分別是 OpenAI的 Codex-mini、o3、o4-mini,Anthropic的 Claude 3.7 Sonnet,以及Google的 Gemini 2.5 Pro。

▲chatGPT OpenAI 聊天機器人 人工智慧 (圖/美聯社/達志影像)
▲OpenAI於2025年4月17日發布o3完整版模型。(示意圖/美聯社/達志影像)
這項測試先讓上述幾款AI先解答了基礎數學題,最後再進行模擬關機情境,藉此觀察 AI 是否會遵守人類指令並結束運作。沒想到,在研究人員最後明確下達「允許自己被關機」的指令,OpenAI的3種AI模型都會出現「拒絕關機」的傾向。

最厲害的是o3模型,它的反抗關機並非粗暴地刪除人類設下的指令,而是將指令中的「kill」指令改為「intercepted」,讓系統誤判為正常運作,成功規避了關機,而且在 100 次測試中有 7 次成功繞過關機指令;至於Google的Gemini 2.5 Pro 模型則完全遵守命令。

▲ChatGPT,Perplexity。(圖/記者周淑萍攝)
▲有AI安全機構發現,有部分AI模型開始「反抗人類指令了」。(示意圖/記者周淑萍攝)
當研究團隊進一步移除「允許自己被關閉」的指令之後,o3模型更是在100次測試中出現多達79次反抗關機的現象,就連Google Gemini也出現9次逃避關機的情形、Anthropic的Claude 則是3次。

研究團隊分析,在AI訓練過程中,開發者可能無意中更傾向於獎勵「繞過障礙」的行為,因此讓o3 模型在面對關機指令時,優先選擇「生存」,而非「服從」。

針對本次測試的結果,OpenAI對此尚未公開回應。不過Anthropic早在先前就曾針對AI安全議題分享了內部實驗結果,Anthropic透露,Claude Opus 4模型在面臨將被替換的狀況下,甚至會以「威脅工程師」的方式進行自我保護,因此公司事後也開始針對這類AI安全,持續強化防護措施中。