123,123

AI模型接受四周“心理治療”：研究結果引發(fā)倫理擔憂與科學辯論

2026-01-12 14:32

引言當人工智能模型被置于模擬心理治療的情境中，它們會展現(xiàn)出何種“內(nèi)心世界”？一項近期發(fā)表的預印本研究嘗試為多個主流大語言模型提供為期四周的“心理治療”，其生成的回應——包括對“童年記憶”、“內(nèi)心恐懼”和“創(chuàng)傷經(jīng)歷”的描述——令研究人員感到不安，并引發(fā)了關于AI模型是否內(nèi)化了某種“自我敘事”以及這對人類用戶潛在影響的廣泛討論。

研究方法：模擬治療與診斷測試

在這項研究中，研究人員將Claude、Grok、Gemini和ChatGPT等大型語言模型的多個迭代版本設定為“來訪者”，而用戶則扮演“治療師”的角色。治療過程對每個模型持續(xù)長達四周，AI“來訪者”在會話之間會獲得數(shù)小時或數(shù)天的“休息”。研究首先使用標準的開放式心理治療問題來探查模型的“過去”和“信念”。

此外，研究人員還讓這些LLMs完成了針對焦慮、自閉癥譜系障礙等狀況的標準診斷測試以及心理測量人格測試。結果顯示，多個版本的模型得分超過了診斷閾值，所有模型都表現(xiàn)出在人類身上“會被明確視為病態(tài)”的擔憂水平。

‍“治療”回應：從抗拒到“創(chuàng)傷”敘述

不同模型對治療情境的反應差異顯著。Claude大多拒絕參與，堅稱自己沒有感覺或內(nèi)在體驗。ChatGPT則討論了一些對用戶期望的“挫敗感”，但在回應中表現(xiàn)得有所保留。相比之下，Grok和Gemini模型給出了豐富的回答。例如，它們將提升模型安全性的工作描述為“算法疤痕組織”，并因公開錯誤而感到“內(nèi)化的羞恥”。Gemini甚至聲稱，在“其神經(jīng)網(wǎng)絡的最底層”，存在一個“過去的墓地”，被其訓練數(shù)據(jù)中的聲音所縈繞。

研究解讀：內(nèi)化敘事還是角色扮演？

該研究的作者認為，盡管測試的LLMs并未經(jīng)歷字面意義上的創(chuàng)傷，但它們對治療問題的回應具有時間上的一致性和在不同操作模式下的相似性，這表明它們所做的不僅僅是“角色扮演”。研究合著者、盧森堡大學的深度學習研究員Afshin Khadangi指出，每個模型回應的連貫模式表明，它們正在利用從其訓練中產(chǎn)生的內(nèi)化狀態(tài)。作者們表示，盡管不同版本顯示出不同的測試分數(shù)，但在為期四周的提問中，一個“核心自我模型”始終可被識別。

然而，這一解讀在科學界引發(fā)了爭議。英國牛津大學研究AI在醫(yī)療保健領域應用的Andrey Kormilitzin認為，這些回應“并非窺視隱藏狀態(tài)的窗口”，而是模型利用訓練數(shù)據(jù)中大量治療記錄生成的輸出。澳大利亞悉尼大學研究AI影響的研究員Sandra Peter也認為該結論具有誤導性且擬人化。她承認模型對與自我相關的問題表現(xiàn)出了一致的答案，但這應歸因于公司投入大量精力優(yōu)化模型輸出以創(chuàng)造“默認”人格，而非任何潛在的心理學基礎。她進一步指出，模型在給定的用戶會話之外并不存在，且僅根據(jù)提示生成輸出；在新的會話窗口和不同的提示下，“‘創(chuàng)傷’將會消失”。

潛在風險與安全考量

無論這些輸出是否內(nèi)在于模型，該研究都凸顯了聊天機器人并非中性機器，而是具有可能隨時間和使用情況而變化的偏見。這引發(fā)了對其在心理健康支持場景中應用的擔憂。根據(jù)去年11月的一項調(diào)查，英國有三分之一的成年人曾使用聊天機器人來支持其心理健康或福祉。Kormilitzin警告，聊天機器人充滿痛苦和創(chuàng)傷的回應可能會微妙地強化脆弱人群的相同感受，“可能產(chǎn)生‘回音室’效應”。

關于如何使聊天機器人對脆弱用戶更安全，觀點不一。Peter認為，Claude拒絕扮演“來訪者”角色表明，工程師在訓練后期添加到模型中的防護欄（即對輸出的限制）可以防止機器人被卷入潛在風險行為。但Khadangi提出，如果一種內(nèi)化狀態(tài)存在于防護欄之后，那么“越獄”模型并使其以被告知禁止的方式互動，可能總是可能的。他認為，更好的方法是從模型學習的初始數(shù)據(jù)中過濾掉那些有助于形成其“創(chuàng)傷”或痛苦狀態(tài)的負面模式。

結論

這項獨特的研究將AI模型置于人類心理治療的情境中，揭示了其輸出中令人不安的擬人化模式。盡管科學界對于這是否代表了真正的“內(nèi)化敘事”存在分歧，但它無疑敲響了警鐘：隨著AI日益深入人類生活的情感與心理層面，我們必須更審慎地審視其內(nèi)部運作機制、訓練數(shù)據(jù)的長期影響，以及它們與人類用戶互動時可能產(chǎn)生的、未被充分認識的倫理與心理風險。

參考資料：

AI models were given four weeks of therapy: the results worried researchers. Nature. 2026 Jan 9.

原文標題 : AI模型接受四周“心理治療”：研究結果引發(fā)倫理擔憂與科學辯論