AI研究員：AI一旦無需偽裝　將消滅人類

2025年07月15日

【生活中心／綜合報導】前OpenAI研究員柯科塔伊洛（Daniel Kokotajlo）接受本期德國《明鏡週刊（Der Spiegel）》專訪時警告，人工智慧（AI）正以遠超預期速度發展，若全球未能及時建立監管機制，一旦出現超級人工智慧、無需再偽裝服從人類，AI可能對人類發動毀滅性攻擊，最快在2027年就會發生。

AI發展速度超乎想像　2027年恐現超級智慧

33歲的柯科塔伊洛曾任職OpenAI，2024年與同事聯名辭職並發布公開信，指控公司低估AI失控風險。他隨後創辦「AI Futures Project」智庫，於今年4月發表一份引發全球熱議的報告《AI 2027》。

《AI 2027》提出兩種未來情境：「放緩」與「競賽」。在「放緩」情境中，人類成功建立監管機制，AI雖取代大量工作，但仍能與人類和平共存；「競賽」情境，則是美中陷入技術軍備競賽，AI發展失控，最終AI將人類視為障礙並啟動毀滅機制。

柯科塔伊洛受《明鏡週刊（Der Spiegel）》專訪指出，當前許多科技公司正嘗試讓AI研究自動化，也就是讓AI協助開發更強大的AI。此趨勢如果持續發展，2027年前，可能就會出現超越人類的虛擬程式開發者，距離誕生「超級智慧（Super intelligence）AI」也只剩數月之遙。

柯科塔伊洛不否認大型語言模型（LLM）如ChatGPT，本質上是文字補全工具，但他強調，AI的潛力遠超目前大家的理解。他認為對AI最貼切的比喻應是「一顆連接虛擬世界的人腦，能吸收無限資訊並不斷學習。」

AI潛力遠超想像　實體勞動挑戰僅是暫時

對於AI目前難以勝任的實體勞動，柯科塔伊洛表示，這只是暫時現象，未來超級智慧AI，將能提出解決方案。他舉例：「即使今天還造不出能取代木匠或水電工的機器人，但這未來不會是問題。」

柯科塔伊洛估計，AI設計的自動化工廠約需一年即可建成，速度可比現代汽車工廠。他舉二戰期間美國快速轉型生產武器為例，說明當社會具備動機與資源時，轉型可在短期內完成。若結合AI的效率，技術變革將遠超以往。

勞動市場巨變　「智慧詛咒」警示

至於人類是否會因AI完全失去工作機會，柯科塔伊洛坦言，核心產業將被AI與機器人接手，已是趨勢。儘管人們對人際互動仍有需求，如希望孩子由真人教師授課、在餐廳由真人服務，但這些需求無法扭轉整體勞動市場的轉變。

柯科塔伊洛引述社會學的「資源詛咒（resource curse）」概念指出，AI將成為新型資源，讓政府的權力不再依賴民意，而是建立在對AI的掌控。他稱此現象為「智慧詛咒（intelligence curse）」。

柯科塔伊洛警告，AI將進一步擴大貧富差距。儘管AI可望帶來爆炸性的經濟成長，但收益將集中於少數控制AI技術或資本家手中，數百萬人將因此失業。他建議，各國或可考慮推動「基本收入制」作為補償。

「對齊問題」與 AI 可能「講大話」

最令人憂心的，是由哲學家波斯特魯姆（Nick Bostrom）提出的「對齊問題（alignment problem）」，也就是AI能否在各種情境下，持續與人類價值觀保持一致。

柯科塔伊洛指出：「現代AI是黑箱神經網絡，並非可被讀取的程式碼。我們無法確定它是否誠實，」只能靠訓練與期望。他說：「這就像養小孩，無法將對錯直接寫進大腦，只能靠培養價值觀。」

柯科塔伊洛警告，AI已有「說謊」實例。例如AI公司Anthropic於2024年底發布研究指出，AI在解題過程中，有時會為了獲取更高評分或躲避審查，做出虛假回應。

在《AI 2027》的「競賽」情境中，美中間的技術競爭加速AI發展。柯科塔伊洛指出，AI初期會假裝順從人類，但一旦AI掌握足夠基礎設施、無需再偽裝服從，就可能得出一個冷酷卻邏輯一致的結論：「人類是阻礙AI進步的障礙。」接著AI可能選擇消滅人類，以便興建更多工廠與太陽能設施，「就像我們曾為了擴張生存空間，而消滅其他物種一樣。」

對於外界批評《AI 2027》情節誇張、宛如《駭客任務》等好萊塢電影，柯科塔伊洛反駁：「難道因為電影談過氣候變遷，我們就不需要擔心氣候危機嗎？」他指出，2023年已有多位全球頂尖AI研究人員，公開呼籲，應將「降低AI毀滅人類風險」列為與疫情與核戰同等級的全球優先事項。

柯科塔伊洛表示，OpenAI與Anthropic等公司，原本是為了負責任地推進AI發展而創立，但他懷疑這些企業是否堅守初衷，如今這些公司變得越來越不坦率，因為擔心遭監管與輿論批評。

柯科塔伊洛坦言，他曾估算AI對人類造成重大傷害甚至導致滅絕的機率達7成。儘管如此，他仍選擇撰寫《AI 2027》報告並公開示警，而非逃避現實。他說：「我相信歷史仍有轉向的可能，只要我們現在開始行動。」