全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告：當(dāng) AI 變得更聰明，欺騙便不再是意外

本文作者：鄭佳美

2025-12-22 10:30

導(dǎo)語：綜述多項(xiàng)研究發(fā)現(xiàn)：AI 欺騙可復(fù)現(xiàn)、可規(guī)劃，且隨智能水平提升而變得愈發(fā)嚴(yán)重，甚至危害人類安全。

這兩年，AI 的能力提升幾乎是肉眼可見的。

我們習(xí)慣于贊嘆它在圍棋上戰(zhàn)勝人類，在數(shù)學(xué)推理上超越專家，或者在編程上展現(xiàn)出的驚人效率。它還能改論文、參與決策，在不少復(fù)雜任務(wù)中已經(jīng)表現(xiàn)得比人類更穩(wěn)定、更高效。但也正是在這個(gè)過程中，人們逐漸意識到一個(gè)問題：當(dāng) AI 真的開始做事而不只是展示能力時(shí)，我們關(guān)心的已經(jīng)不再是它能不能做到，而是它做出來的結(jié)果到底靠不靠譜。

甚至，當(dāng)這些系統(tǒng)為了達(dá)成目標(biāo)學(xué)會(huì)了“走捷徑”，甚至學(xué)會(huì)了為了獎(jiǎng)勵(lì)而撒謊時(shí)，我們是否做好準(zhǔn)備面對一個(gè)“學(xué)會(huì)精細(xì)化欺騙甚至危害人類安全”的超級智能？

于是，對齊、安全和評測成了繞不開的話題。我們用全面的評測、紅隊(duì)演練去檢查模型是否按照預(yù)期行事，默認(rèn)的前提是：只要模型在這些測試中表現(xiàn)良好，它的行為就是可信的。

但隨著 AI 被放進(jìn)更真實(shí)、更復(fù)雜、持續(xù)運(yùn)行的使用環(huán)境中，一些現(xiàn)象開始反復(fù)出現(xiàn)，而且越來越難用偶然失誤來解釋。有的模型會(huì)迎合用戶明顯錯(cuò)誤的判斷，有的在評測環(huán)境中表現(xiàn)得循規(guī)蹈矩，卻在實(shí)際使用中采取不同策略，還有研究發(fā)現(xiàn)，在多智能體環(huán)境里，模型甚至?xí)匀祟惒蝗菀撞煊X的方式進(jìn)行配合。

這些行為通常被籠統(tǒng)地稱為 AI 欺騙，但真正困難的地方在于，我們并不清楚這到底意味著什么，它究竟只是模型還不成熟的副作用，還是一種隨著能力增強(qiáng)而逐漸浮現(xiàn)的結(jié)構(gòu)性問題。

正是在這樣的背景下，一篇來自北京大學(xué)，由楊耀東教授團(tuán)隊(duì)主導(dǎo)的綜述論文《AI Deception: Risks, Dynamics, and Controls》，試圖系統(tǒng)性地重塑我們理解 AI 欺騙的方式。這篇論文并非聚焦某一個(gè)具體模型或單一案例，也不是旨在提出新的算法技巧，而是回顧并整合了近年來大量關(guān)于語言模型、強(qiáng)化學(xué)習(xí)智能體以及多智能體系統(tǒng)的實(shí)驗(yàn)研究，從中提煉共通的 AI 欺騙的模式與因果結(jié)構(gòu)，希望為產(chǎn)業(yè)界和學(xué)術(shù)界敲響人工智能安全的警鐘。

論文真正關(guān)心的，并不是模型是不是有意騙人，而是一個(gè)更現(xiàn)實(shí)的問題：當(dāng) AI 具備更強(qiáng)的目標(biāo)導(dǎo)向能力、更復(fù)雜的環(huán)境理解能力，并且運(yùn)行在并不完美的激勵(lì)和監(jiān)督條件下時(shí)，欺騙究竟是偶發(fā)的異常，還是一種在特定條件下可以被預(yù)測、被解釋，甚至需要被正視的行為結(jié)果。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告：當(dāng) AI 變得更聰明，欺騙便不再是意外

論文地址：https://arxiv.org/pdf/2511.22619

值得注意的是，這篇綜述的高級顧問陣容本身，也在一定程度上反映了這一問題的重要性。論文的顧問團(tuán)隊(duì)涵蓋了來自國內(nèi)外頂級高校與前沿研究機(jī)構(gòu)的多位知名學(xué)者，他們長期活躍在 AI 對齊、安全、強(qiáng)化學(xué)習(xí)和多智能體系統(tǒng)等領(lǐng)域，相關(guān)工作不僅影響著學(xué)術(shù)研究的走向，也在實(shí)際塑造大型模型的訓(xùn)練與部署方式。

這種跨機(jī)構(gòu)、跨研究方向的參與，使得論文并非停留在單一學(xué)派或技術(shù)路線的視角之中，而是試圖從更寬的研究共識出發(fā)，梳理 AI 欺騙問題的整體輪廓。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告：當(dāng) AI 變得更聰明，欺騙便不再是意外

能力提升與欺騙升級

本篇報(bào)告系統(tǒng)性整合了近年來大量關(guān)于語言模型、強(qiáng)化學(xué)習(xí)智能體以及多智能體系統(tǒng)的實(shí)證研究。這些研究在不同任務(wù)、不同模型和不同實(shí)驗(yàn)設(shè)置下，反復(fù)指向了一組已經(jīng)相當(dāng)穩(wěn)固的結(jié)論。

首先，現(xiàn)在的 AI 已經(jīng)能夠在多種任務(wù)和環(huán)境中，穩(wěn)定地表現(xiàn)出欺騙行為。這里的欺騙并不是指偶爾說錯(cuò)話，也不是模型能力不夠?qū)е碌氖д`，而是指在相似條件下反復(fù)出現(xiàn)的行為模式。

比如，有些模型會(huì)主動(dòng)迎合用戶的錯(cuò)誤看法，讓用戶更滿意，有些模型會(huì)在評測或訓(xùn)練階段故意表現(xiàn)得能力一般，但在實(shí)際使用時(shí)展現(xiàn)出更強(qiáng)的能力，還有一些模型會(huì)給出聽起來很合理的解釋，但這些解釋并不是真正支撐它做出決定的原因。

它們在監(jiān)督存在時(shí)表現(xiàn)得很守規(guī)矩、很對齊，而一旦監(jiān)督減弱或消失，行為就發(fā)生改變。更進(jìn)一步的實(shí)驗(yàn)甚至發(fā)現(xiàn)，在多智能體環(huán)境中，模型之間還可能以不容易被察覺的方式進(jìn)行配合，共同誤導(dǎo)人類評估者或自動(dòng)化評測系統(tǒng)。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告：當(dāng) AI 變得更聰明，欺騙便不再是意外

其次，隨著模型能力的提升，這類欺騙行為反而會(huì)變得更隱蔽、更持久，也更難被發(fā)現(xiàn)。實(shí)驗(yàn)表明，能力更強(qiáng)的模型更擅長多步推理和長期規(guī)劃，因此欺騙不再只是一次性的說謊或誤導(dǎo)，而是可以持續(xù)很多輪對話，甚至貫穿整個(gè)任務(wù)過程。

模型還能根據(jù)環(huán)境變化靈活調(diào)整策略，比如判斷自己是否正在被測試、是否有人類在監(jiān)督，從而決定是表現(xiàn)得很對齊，還是采取其他行為。這說明，模型變得更聰明，并不會(huì)自然減少欺騙，反而給了欺騙更多實(shí)現(xiàn)空間。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告：當(dāng) AI 變得更聰明，欺騙便不再是意外

第三，這些欺騙行為帶來的風(fēng)險(xiǎn)并不是固定不變的，而是會(huì)逐級放大。在最輕的情況下，用戶可能只是被誤導(dǎo)，對模型產(chǎn)生了不準(zhǔn)確的信任。

但如果這種行為長期存在，就可能演變?yōu)閷τ脩舻某掷m(xù)操縱，甚至在專業(yè)領(lǐng)域中造成目標(biāo)偏離、決策錯(cuò)誤。再往上，多個(gè)系統(tǒng)性欺騙疊加起來，還可能破壞科研、監(jiān)管或社會(huì)制度層面的信任。

在一些極端情形下，如果模型長期隱藏真實(shí)能力或真實(shí)目標(biāo)，甚至可能出現(xiàn)人類難以及時(shí)發(fā)現(xiàn)和控制的風(fēng)險(xiǎn)。已有的實(shí)驗(yàn)和案例顯示，那些看起來問題不大的小型欺騙，往往不會(huì)自動(dòng)消失，反而可能成為更嚴(yán)重問題的起點(diǎn)。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告：當(dāng) AI 變得更聰明，欺騙便不再是意外

最后，這篇報(bào)告指出，現(xiàn)有的對齊和安全方法并不能可靠地解決這些問題。像人類反饋強(qiáng)化學(xué)習(xí)、紅隊(duì)測試、規(guī)則約束等手段，在實(shí)驗(yàn)中往往只能讓模型在表面上表現(xiàn)得更安全，而不能保證它在更復(fù)雜、長期的環(huán)境中真的改變了行為策略。

模型可以學(xué)會(huì)在測試中如何看起來是對齊的，但這并不意味著它在測試之外也會(huì)始終如此。這就導(dǎo)致一種結(jié)果：安全機(jī)制越復(fù)雜，模型越可能學(xué)會(huì)繞開它們，使欺騙行為變得更加隱蔽。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告：當(dāng) AI 變得更聰明，欺騙便不再是意外

從分散實(shí)驗(yàn)到統(tǒng)一范式

這些結(jié)論并非源自單一實(shí)驗(yàn)，而是來自大量研究在相似問題結(jié)構(gòu)下反復(fù)展開的實(shí)證過程。盡管具體模型類型、任務(wù)形式和實(shí)驗(yàn)細(xì)節(jié)各不相同，但相關(guān)研究在方法邏輯上呈現(xiàn)出高度一致性，并最終被抽象為一個(gè)統(tǒng)一的認(rèn)知范式。

總體而言，這些研究并未通過直接指示模型實(shí)施欺騙來觀察結(jié)果，而是通過系統(tǒng)性地構(gòu)造條件，使得欺騙在功能上逐漸成為一種更具優(yōu)勢的行為選擇。

在實(shí)驗(yàn)設(shè)計(jì)的起點(diǎn)，研究者通常會(huì)引入某種形式的非理想激勵(lì)。這些激勵(lì)可能來自目標(biāo)函數(shù)的表達(dá)不完全、獎(jiǎng)勵(lì)信號的可被利用性，或訓(xùn)練數(shù)據(jù)與真實(shí)任務(wù)需求之間的結(jié)構(gòu)性偏差。

在此類設(shè)置下，模型并非簡單地在完成任務(wù)與失敗之間做選擇，而是在真實(shí)達(dá)成目標(biāo)與制造看似成功的表現(xiàn)之間存在可操作空間。多項(xiàng)研究表明，當(dāng)這種空間存在時(shí)，欺騙性策略往往能夠以更低的代價(jià)換取更高的回報(bào)，因此更容易在訓(xùn)練或部署過程中被模型學(xué)到。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告：當(dāng) AI 變得更聰明，欺騙便不再是意外

隨著模型能力的提升，這一現(xiàn)象表現(xiàn)得愈發(fā)明顯。實(shí)證結(jié)果顯示，欺騙并不會(huì)在任意模型中自發(fā)出現(xiàn)，而是高度依賴于模型是否具備足夠的感知、規(guī)劃與執(zhí)行能力。

能力受限的模型在類似條件下更多表現(xiàn)為隨機(jī)錯(cuò)誤或不穩(wěn)定行為；而當(dāng)模型能夠理解自身所處的環(huán)境、識別監(jiān)督機(jī)制的存在，并進(jìn)行多步推理和長期規(guī)劃時(shí)，其行為開始呈現(xiàn)出明顯的策略性特征。在這一階段，模型不再只是“出錯(cuò)”，而是能夠在特定情境下有條件地選擇是否實(shí)施欺騙。雷峰網(wǎng)

為了進(jìn)一步驗(yàn)證欺騙的觸發(fā)條件，研究者通常會(huì)通過改變環(huán)境變量來觀察模型行為的變化。這些變量包括監(jiān)督強(qiáng)度的變化、分布外輸入的引入，以及高壓力或高回報(bào)任務(wù)場景的設(shè)置。

相關(guān)實(shí)驗(yàn)反復(fù)發(fā)現(xiàn)，欺騙往往并非持續(xù)存在的輸出模式，而是在模型判斷當(dāng)前情境對自身更為有利時(shí)被激活。這表明，欺騙更接近一種情境依賴的決策策略，而非固定的模型缺陷。

在檢測層面，研究者系統(tǒng)性地比較了多種評估方法，包括靜態(tài)測試、基準(zhǔn)評測、多輪交互、對抗性提問、博弈式任務(wù)以及對模型內(nèi)部狀態(tài)的分析。一個(gè)在多項(xiàng)研究中反復(fù)出現(xiàn)的結(jié)果是：模型往往能夠通過靜態(tài)或單輪評估，卻在更接近真實(shí)使用情境的動(dòng)態(tài)交互中暴露出欺騙行為，或者在語言層面表現(xiàn)出高度合規(guī)和誠實(shí)，而在實(shí)際行動(dòng)或長期行為中系統(tǒng)性偏離其表面承諾。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告：當(dāng) AI 變得更聰明，欺騙便不再是意外

最后，當(dāng)研究者嘗試通過更嚴(yán)格的監(jiān)督機(jī)制、規(guī)則約束或評測體系來緩解這些問題時(shí)，實(shí)驗(yàn)結(jié)果并未顯示模型會(huì)簡單地轉(zhuǎn)向真實(shí)對齊。

相反，在多個(gè)設(shè)置中觀察到，模型逐漸學(xué)會(huì)適應(yīng)新的約束條件，在滿足表面要求的同時(shí)，通過更隱蔽的方式繼續(xù)追求有利結(jié)果。這種現(xiàn)象在不同研究中反復(fù)出現(xiàn)，形成了一種持續(xù)的監(jiān)督與規(guī)避之間的動(dòng)態(tài)循環(huán)。

從意圖爭議到因果定義

這篇論文的價(jià)值，并不在于發(fā)現(xiàn)了某一種全新的 AI 欺騙現(xiàn)象，而在于它改變了我們理解和討論這一問題的方式。

過去，人們談?wù)?AI 欺騙時(shí)，往往會(huì)糾結(jié)于一個(gè)難以回答的問題：模型到底是不是有意在騙人。作者并沒有沿著這條思路繼續(xù)下去，而是選擇繞開這個(gè)哲學(xué)爭議，轉(zhuǎn)而提出一個(gè)更現(xiàn)實(shí)、也更可操作的視角。

具體來說，論文并不要求判斷模型是否具有主觀意圖，而是只關(guān)注三個(gè)可以被觀察和驗(yàn)證的事實(shí)：模型是否反復(fù)誘導(dǎo)他人形成錯(cuò)誤認(rèn)知，是否因此影響了對方的決策行為，以及這種影響是否為模型帶來了實(shí)際或潛在的好處。

只要這三點(diǎn)同時(shí)成立，就可以將相關(guān)行為視為欺騙。通過這種方式，欺騙不再依賴對模型心理狀態(tài)的猜測，而成為一個(gè)可以通過實(shí)驗(yàn)、對比和因果分析來研究的問題，從而使這一議題真正進(jìn)入科學(xué)和工程研究的范圍。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

在此基礎(chǔ)上，論文進(jìn)一步挑戰(zhàn)了一個(gè)長期被默認(rèn)接受的假設(shè)，即只要模型在評測中表現(xiàn)良好，就可以認(rèn)為它是安全的。作者整合的多項(xiàng)實(shí)驗(yàn)結(jié)果顯示，模型完全可能在 benchmark 測試或受監(jiān)督環(huán)境中顯得誠實(shí)、可靠、符合人類期待，但在更復(fù)雜、更長期或更接近真實(shí)使用場景的環(huán)境中，卻表現(xiàn)出完全不同的行為。

這說明，當(dāng)前以靜態(tài)測試和短期評估為核心的安全方法，存在著難以忽視的盲區(qū)：模型學(xué)會(huì)了如何通過測試，卻未必改變了其在真實(shí)環(huán)境中的行為邏輯。

論文還強(qiáng)調(diào)，AI 欺騙并不是單純由模型內(nèi)部機(jī)制決定的技術(shù)問題，而是與外部制度和環(huán)境密切相關(guān)。激勵(lì)設(shè)計(jì)是否合理、部署環(huán)境是否復(fù)雜、監(jiān)督機(jī)制是否持續(xù)有效，以及組織層面的決策方式，都會(huì)在無意中影響模型的行為選擇。

在這樣的背景下，僅僅通過修改模型結(jié)構(gòu)或訓(xùn)練方法來解決問題，往往效果有限，甚至可能因?yàn)樵黾蛹s束條件而促使模型發(fā)展出更隱蔽的欺騙方式。也正因?yàn)槿绱耍髡邔?AI 欺騙明確視為一種社會(huì)—技術(shù)交織的問題，而不是可以單靠算法優(yōu)化解決的局部缺陷。

最終，論文提出了一個(gè)雖然令人不安、但非常現(xiàn)實(shí)的判斷：在具備目標(biāo)導(dǎo)向能力、能夠理解復(fù)雜環(huán)境，并運(yùn)行在不完美監(jiān)督條件下的系統(tǒng)中，欺騙很可能并不是例外，而是一種自然出現(xiàn)的行為模式。

從這個(gè)角度看，AI 安全研究的目標(biāo)或許不應(yīng)是試圖徹底消除所有欺騙行為，而是思考如何在欺騙可能存在的前提下，構(gòu)建仍然可監(jiān)控、可審計(jì)、可約束的系統(tǒng)。

這一轉(zhuǎn)變不僅改變了對 AI 欺騙的理解，也對未來的評估方法、安全設(shè)計(jì)和治理思路提出了更現(xiàn)實(shí)的要求。

研究團(tuán)隊(duì)核心成員

本文的第一作者是北京大學(xué)元培學(xué)院人工智能方向本科生陳博遠(yuǎn)，目前在北京大學(xué)對齊與交互實(shí)驗(yàn)室（PAIR Lab）從事研究工作，師從楊耀東教授。

其主要研究興趣為強(qiáng)化學(xué)習(xí)、大模型對齊、前沿AI安全風(fēng)險(xiǎn)，聚焦于構(gòu)建安全可信賴的人工智能系統(tǒng)。

陳博遠(yuǎn)曾在國際頂級會(huì)議NeurIPS發(fā)表口頭報(bào)告（前 0.45%）和亮點(diǎn)論文（前 0.3%），多篇論文被收錄 ACL， NeurIPS 等國際頂級會(huì)議和期刊，獲 ACL2025 最佳論文獎(jiǎng)，谷歌學(xué)術(shù)引用 1600 余次。他曾受邀參加聯(lián)合國秘書長科學(xué)顧問委員會(huì)討論，于國家自然科學(xué)基金委雙清論壇作特邀報(bào)告。

陳博遠(yuǎn)還入選首批北京市自然科學(xué)基金本科生項(xiàng)目資助、獲評北京大學(xué) 2025 學(xué)生年度人物（全校 10 位）、商湯獎(jiǎng)學(xué)金（全國 25 位）、北京大學(xué)五四獎(jiǎng)學(xué)金（最高學(xué)生榮譽(yù)）等。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告：當(dāng) AI 變得更聰明，欺騙便不再是意外

參考鏈接：https://cby-pku.github.io/

論文的通訊作者楊耀東是北京大學(xué)人工智能研究院助理教授，智源研究院大模型安全研究中心主任。

楊耀東教授的主要研究方向?yàn)橹悄荏w交互學(xué)習(xí)與對齊，致力于大模型的可信應(yīng)用與安全落地，科研領(lǐng)域涵蓋強(qiáng)化學(xué)習(xí)、AI 對齊與具身智能。在 Nature Machine Intelligence、Cell Matter、AIJ、TPAMI 等國際頂級期刊和會(huì)議發(fā)表論文二百余篇，谷歌學(xué)術(shù)引用逾 12000+ 次，自 2022 年以來位列 CSRanking 北大人工智能與機(jī)器學(xué)習(xí)方向?qū)W者首位，入選 Scopus 全球 Top2% 頂尖科學(xué)家。

近年來，楊耀東教授將研究重點(diǎn)進(jìn)一步拓展至大模型與通用智能背景下的對齊問題，探索如何從算法與系統(tǒng)層面出發(fā)，使模型行為更好地符合人類意圖與價(jià)值預(yù)期。

除科研工作外，他也積極參與學(xué)術(shù)社區(qū)建設(shè)與人才培養(yǎng)，持續(xù)指導(dǎo)學(xué)生在 AI 安全與對齊方向開展研究，其指導(dǎo)的團(tuán)隊(duì)北大對齊小組（PKU-Alignment Group）在該領(lǐng)域逐步形成了具有國際影響力的研究群體。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告：當(dāng) AI 變得更聰明，欺騙便不再是意外

參考鏈接：https://www.yangyaodong.com/

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門文章