成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能開發(fā)者 正文
    發(fā)私信給鄭佳美
    發(fā)送

    0

    全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

    本文作者: 鄭佳美   2025-12-22 10:30
    導(dǎo)語:綜述多項(xiàng)研究發(fā)現(xiàn):AI 欺騙可復(fù)現(xiàn)、可規(guī)劃,且隨智能水平提升而變得愈發(fā)嚴(yán)重,甚至危害人類安全。

    這兩年,AI 的能力提升幾乎是肉眼可見的。

    我們習(xí)慣于贊嘆它在圍棋上戰(zhàn)勝人類,在數(shù)學(xué)推理上超越專家,或者在編程上展現(xiàn)出的驚人效率。它還能改論文、參與決策,在不少復(fù)雜任務(wù)中已經(jīng)表現(xiàn)得比人類更穩(wěn)定、更高效。但也正是在這個(gè)過程中,人們逐漸意識到一個(gè)問題:當(dāng) AI 真的開始做事而不只是展示能力時(shí),我們關(guān)心的已經(jīng)不再是它能不能做到,而是它做出來的結(jié)果到底靠不靠譜。

    甚至,當(dāng)這些系統(tǒng)為了達(dá)成目標(biāo)學(xué)會(huì)了“走捷徑”,甚至學(xué)會(huì)了為了獎(jiǎng)勵(lì)而撒謊時(shí),我們是否做好準(zhǔn)備面對一個(gè)“學(xué)會(huì)精細(xì)化欺騙甚至危害人類安全”的超級智能?

    于是,對齊、安全和評測成了繞不開的話題。我們用全面的評測、紅隊(duì)演練去檢查模型是否按照預(yù)期行事,默認(rèn)的前提是:只要模型在這些測試中表現(xiàn)良好,它的行為就是可信的。

    但隨著 AI 被放進(jìn)更真實(shí)、更復(fù)雜、持續(xù)運(yùn)行的使用環(huán)境中,一些現(xiàn)象開始反復(fù)出現(xiàn),而且越來越難用偶然失誤來解釋。有的模型會(huì)迎合用戶明顯錯(cuò)誤的判斷,有的在評測環(huán)境中表現(xiàn)得循規(guī)蹈矩,卻在實(shí)際使用中采取不同策略,還有研究發(fā)現(xiàn),在多智能體環(huán)境里,模型甚至?xí)匀祟惒蝗菀撞煊X的方式進(jìn)行配合。

    這些行為通常被籠統(tǒng)地稱為 AI 欺騙,但真正困難的地方在于,我們并不清楚這到底意味著什么,它究竟只是模型還不成熟的副作用,還是一種隨著能力增強(qiáng)而逐漸浮現(xiàn)的結(jié)構(gòu)性問題。

    正是在這樣的背景下,一篇來自北京大學(xué),由楊耀東教授團(tuán)隊(duì)主導(dǎo)的綜述論文《AI Deception: Risks, Dynamics, and Controls》,試圖系統(tǒng)性地重塑我們理解 AI 欺騙的方式。這篇論文并非聚焦某一個(gè)具體模型或單一案例,也不是旨在提出新的算法技巧,而是回顧并整合了近年來大量關(guān)于語言模型、強(qiáng)化學(xué)習(xí)智能體以及多智能體系統(tǒng)的實(shí)驗(yàn)研究,從中提煉共通的 AI 欺騙的模式與因果結(jié)構(gòu),希望為產(chǎn)業(yè)界和學(xué)術(shù)界敲響人工智能安全的警鐘。

    論文真正關(guān)心的,并不是模型是不是有意騙人,而是一個(gè)更現(xiàn)實(shí)的問題:當(dāng) AI 具備更強(qiáng)的目標(biāo)導(dǎo)向能力、更復(fù)雜的環(huán)境理解能力,并且運(yùn)行在并不完美的激勵(lì)和監(jiān)督條件下時(shí),欺騙究竟是偶發(fā)的異常,還是一種在特定條件下可以被預(yù)測、被解釋,甚至需要被正視的行為結(jié)果。

    全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

    論文地址:https://arxiv.org/pdf/2511.22619

    值得注意的是,這篇綜述的高級顧問陣容本身,也在一定程度上反映了這一問題的重要性。論文的顧問團(tuán)隊(duì)涵蓋了來自國內(nèi)外頂級高校與前沿研究機(jī)構(gòu)的多位知名學(xué)者,他們長期活躍在 AI 對齊、安全、強(qiáng)化學(xué)習(xí)和多智能體系統(tǒng)等領(lǐng)域,相關(guān)工作不僅影響著學(xué)術(shù)研究的走向,也在實(shí)際塑造大型模型的訓(xùn)練與部署方式。

    這種跨機(jī)構(gòu)、跨研究方向的參與,使得論文并非停留在單一學(xué)派或技術(shù)路線的視角之中,而是試圖從更寬的研究共識出發(fā),梳理 AI 欺騙問題的整體輪廓。

    全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

    能力提升與欺騙升級

    本篇報(bào)告系統(tǒng)性整合了近年來大量關(guān)于語言模型、強(qiáng)化學(xué)習(xí)智能體以及多智能體系統(tǒng)的實(shí)證研究。這些研究在不同任務(wù)、不同模型和不同實(shí)驗(yàn)設(shè)置下,反復(fù)指向了一組已經(jīng)相當(dāng)穩(wěn)固的結(jié)論。

    首先,現(xiàn)在的 AI 已經(jīng)能夠在多種任務(wù)和環(huán)境中,穩(wěn)定地表現(xiàn)出欺騙行為。這里的欺騙并不是指偶爾說錯(cuò)話,也不是模型能力不夠?qū)е碌氖д`,而是指在相似條件下反復(fù)出現(xiàn)的行為模式。

    比如,有些模型會(huì)主動(dòng)迎合用戶的錯(cuò)誤看法,讓用戶更滿意,有些模型會(huì)在評測或訓(xùn)練階段故意表現(xiàn)得能力一般,但在實(shí)際使用時(shí)展現(xiàn)出更強(qiáng)的能力,還有一些模型會(huì)給出聽起來很合理的解釋,但這些解釋并不是真正支撐它做出決定的原因。

    它們在監(jiān)督存在時(shí)表現(xiàn)得很守規(guī)矩、很對齊,而一旦監(jiān)督減弱或消失,行為就發(fā)生改變。更進(jìn)一步的實(shí)驗(yàn)甚至發(fā)現(xiàn),在多智能體環(huán)境中,模型之間還可能以不容易被察覺的方式進(jìn)行配合,共同誤導(dǎo)人類評估者或自動(dòng)化評測系統(tǒng)。

    全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

    其次,隨著模型能力的提升,這類欺騙行為反而會(huì)變得更隱蔽、更持久,也更難被發(fā)現(xiàn)。實(shí)驗(yàn)表明,能力更強(qiáng)的模型更擅長多步推理和長期規(guī)劃,因此欺騙不再只是一次性的說謊或誤導(dǎo),而是可以持續(xù)很多輪對話,甚至貫穿整個(gè)任務(wù)過程。

    模型還能根據(jù)環(huán)境變化靈活調(diào)整策略,比如判斷自己是否正在被測試、是否有人類在監(jiān)督,從而決定是表現(xiàn)得很對齊,還是采取其他行為。這說明,模型變得更聰明,并不會(huì)自然減少欺騙,反而給了欺騙更多實(shí)現(xiàn)空間。

    全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

    第三,這些欺騙行為帶來的風(fēng)險(xiǎn)并不是固定不變的,而是會(huì)逐級放大。在最輕的情況下,用戶可能只是被誤導(dǎo),對模型產(chǎn)生了不準(zhǔn)確的信任。

    但如果這種行為長期存在,就可能演變?yōu)閷τ脩舻某掷m(xù)操縱,甚至在專業(yè)領(lǐng)域中造成目標(biāo)偏離、決策錯(cuò)誤。再往上,多個(gè)系統(tǒng)性欺騙疊加起來,還可能破壞科研、監(jiān)管或社會(huì)制度層面的信任。

    在一些極端情形下,如果模型長期隱藏真實(shí)能力或真實(shí)目標(biāo),甚至可能出現(xiàn)人類難以及時(shí)發(fā)現(xiàn)和控制的風(fēng)險(xiǎn)。已有的實(shí)驗(yàn)和案例顯示,那些看起來問題不大的小型欺騙,往往不會(huì)自動(dòng)消失,反而可能成為更嚴(yán)重問題的起點(diǎn)。

    全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

    最后,這篇報(bào)告指出,現(xiàn)有的對齊和安全方法并不能可靠地解決這些問題。像人類反饋強(qiáng)化學(xué)習(xí)、紅隊(duì)測試、規(guī)則約束等手段,在實(shí)驗(yàn)中往往只能讓模型在表面上表現(xiàn)得更安全,而不能保證它在更復(fù)雜、長期的環(huán)境中真的改變了行為策略。

    模型可以學(xué)會(huì)在測試中如何看起來是對齊的,但這并不意味著它在測試之外也會(huì)始終如此。這就導(dǎo)致一種結(jié)果:安全機(jī)制越復(fù)雜,模型越可能學(xué)會(huì)繞開它們,使欺騙行為變得更加隱蔽。

    全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

    從分散實(shí)驗(yàn)到統(tǒng)一范式

    這些結(jié)論并非源自單一實(shí)驗(yàn),而是來自大量研究在相似問題結(jié)構(gòu)下反復(fù)展開的實(shí)證過程。盡管具體模型類型、任務(wù)形式和實(shí)驗(yàn)細(xì)節(jié)各不相同,但相關(guān)研究在方法邏輯上呈現(xiàn)出高度一致性,并最終被抽象為一個(gè)統(tǒng)一的認(rèn)知范式。

    總體而言,這些研究并未通過直接指示模型實(shí)施欺騙來觀察結(jié)果,而是通過系統(tǒng)性地構(gòu)造條件,使得欺騙在功能上逐漸成為一種更具優(yōu)勢的行為選擇。

    在實(shí)驗(yàn)設(shè)計(jì)的起點(diǎn),研究者通常會(huì)引入某種形式的非理想激勵(lì)。這些激勵(lì)可能來自目標(biāo)函數(shù)的表達(dá)不完全、獎(jiǎng)勵(lì)信號的可被利用性,或訓(xùn)練數(shù)據(jù)與真實(shí)任務(wù)需求之間的結(jié)構(gòu)性偏差。

    在此類設(shè)置下,模型并非簡單地在完成任務(wù)與失敗之間做選擇,而是在真實(shí)達(dá)成目標(biāo)與制造看似成功的表現(xiàn)之間存在可操作空間。多項(xiàng)研究表明,當(dāng)這種空間存在時(shí),欺騙性策略往往能夠以更低的代價(jià)換取更高的回報(bào),因此更容易在訓(xùn)練或部署過程中被模型學(xué)到。

    全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

    隨著模型能力的提升,這一現(xiàn)象表現(xiàn)得愈發(fā)明顯。實(shí)證結(jié)果顯示,欺騙并不會(huì)在任意模型中自發(fā)出現(xiàn),而是高度依賴于模型是否具備足夠的感知、規(guī)劃與執(zhí)行能力。

    能力受限的模型在類似條件下更多表現(xiàn)為隨機(jī)錯(cuò)誤或不穩(wěn)定行為;而當(dāng)模型能夠理解自身所處的環(huán)境、識別監(jiān)督機(jī)制的存在,并進(jìn)行多步推理和長期規(guī)劃時(shí),其行為開始呈現(xiàn)出明顯的策略性特征。在這一階段,模型不再只是“出錯(cuò)”,而是能夠在特定情境下有條件地選擇是否實(shí)施欺騙。雷峰網(wǎng)

    為了進(jìn)一步驗(yàn)證欺騙的觸發(fā)條件,研究者通常會(huì)通過改變環(huán)境變量來觀察模型行為的變化。這些變量包括監(jiān)督強(qiáng)度的變化、分布外輸入的引入,以及高壓力或高回報(bào)任務(wù)場景的設(shè)置。

    相關(guān)實(shí)驗(yàn)反復(fù)發(fā)現(xiàn),欺騙往往并非持續(xù)存在的輸出模式,而是在模型判斷當(dāng)前情境對自身更為有利時(shí)被激活。這表明,欺騙更接近一種情境依賴的決策策略,而非固定的模型缺陷。

    在檢測層面,研究者系統(tǒng)性地比較了多種評估方法,包括靜態(tài)測試、基準(zhǔn)評測、多輪交互、對抗性提問、博弈式任務(wù)以及對模型內(nèi)部狀態(tài)的分析。一個(gè)在多項(xiàng)研究中反復(fù)出現(xiàn)的結(jié)果是:模型往往能夠通過靜態(tài)或單輪評估,卻在更接近真實(shí)使用情境的動(dòng)態(tài)交互中暴露出欺騙行為,或者在語言層面表現(xiàn)出高度合規(guī)和誠實(shí),而在實(shí)際行動(dòng)或長期行為中系統(tǒng)性偏離其表面承諾。

    全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

    最后,當(dāng)研究者嘗試通過更嚴(yán)格的監(jiān)督機(jī)制、規(guī)則約束或評測體系來緩解這些問題時(shí),實(shí)驗(yàn)結(jié)果并未顯示模型會(huì)簡單地轉(zhuǎn)向真實(shí)對齊。

    相反,在多個(gè)設(shè)置中觀察到,模型逐漸學(xué)會(huì)適應(yīng)新的約束條件,在滿足表面要求的同時(shí),通過更隱蔽的方式繼續(xù)追求有利結(jié)果。這種現(xiàn)象在不同研究中反復(fù)出現(xiàn),形成了一種持續(xù)的監(jiān)督與規(guī)避之間的動(dòng)態(tài)循環(huán)。

    從意圖爭議到因果定義

    這篇論文的價(jià)值,并不在于發(fā)現(xiàn)了某一種全新的 AI 欺騙現(xiàn)象,而在于它改變了我們理解和討論這一問題的方式。

    過去,人們談?wù)?AI 欺騙時(shí),往往會(huì)糾結(jié)于一個(gè)難以回答的問題:模型到底是不是有意在騙人。作者并沒有沿著這條思路繼續(xù)下去,而是選擇繞開這個(gè)哲學(xué)爭議,轉(zhuǎn)而提出一個(gè)更現(xiàn)實(shí)、也更可操作的視角。

    具體來說,論文并不要求判斷模型是否具有主觀意圖,而是只關(guān)注三個(gè)可以被觀察和驗(yàn)證的事實(shí):模型是否反復(fù)誘導(dǎo)他人形成錯(cuò)誤認(rèn)知,是否因此影響了對方的決策行為,以及這種影響是否為模型帶來了實(shí)際或潛在的好處。

    只要這三點(diǎn)同時(shí)成立,就可以將相關(guān)行為視為欺騙。通過這種方式,欺騙不再依賴對模型心理狀態(tài)的猜測,而成為一個(gè)可以通過實(shí)驗(yàn)、對比和因果分析來研究的問題,從而使這一議題真正進(jìn)入科學(xué)和工程研究的范圍。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

    在此基礎(chǔ)上,論文進(jìn)一步挑戰(zhàn)了一個(gè)長期被默認(rèn)接受的假設(shè),即只要模型在評測中表現(xiàn)良好,就可以認(rèn)為它是安全的。作者整合的多項(xiàng)實(shí)驗(yàn)結(jié)果顯示,模型完全可能在 benchmark 測試或受監(jiān)督環(huán)境中顯得誠實(shí)、可靠、符合人類期待,但在更復(fù)雜、更長期或更接近真實(shí)使用場景的環(huán)境中,卻表現(xiàn)出完全不同的行為。

    這說明,當(dāng)前以靜態(tài)測試和短期評估為核心的安全方法,存在著難以忽視的盲區(qū):模型學(xué)會(huì)了如何通過測試,卻未必改變了其在真實(shí)環(huán)境中的行為邏輯。

    論文還強(qiáng)調(diào),AI 欺騙并不是單純由模型內(nèi)部機(jī)制決定的技術(shù)問題,而是與外部制度和環(huán)境密切相關(guān)。激勵(lì)設(shè)計(jì)是否合理、部署環(huán)境是否復(fù)雜、監(jiān)督機(jī)制是否持續(xù)有效,以及組織層面的決策方式,都會(huì)在無意中影響模型的行為選擇。

    在這樣的背景下,僅僅通過修改模型結(jié)構(gòu)或訓(xùn)練方法來解決問題,往往效果有限,甚至可能因?yàn)樵黾蛹s束條件而促使模型發(fā)展出更隱蔽的欺騙方式。也正因?yàn)槿绱耍髡邔?AI 欺騙明確視為一種社會(huì)—技術(shù)交織的問題,而不是可以單靠算法優(yōu)化解決的局部缺陷。

    最終,論文提出了一個(gè)雖然令人不安、但非常現(xiàn)實(shí)的判斷:在具備目標(biāo)導(dǎo)向能力、能夠理解復(fù)雜環(huán)境,并運(yùn)行在不完美監(jiān)督條件下的系統(tǒng)中,欺騙很可能并不是例外,而是一種自然出現(xiàn)的行為模式。

    從這個(gè)角度看,AI 安全研究的目標(biāo)或許不應(yīng)是試圖徹底消除所有欺騙行為,而是思考如何在欺騙可能存在的前提下,構(gòu)建仍然可監(jiān)控、可審計(jì)、可約束的系統(tǒng)。

    這一轉(zhuǎn)變不僅改變了對 AI 欺騙的理解,也對未來的評估方法、安全設(shè)計(jì)和治理思路提出了更現(xiàn)實(shí)的要求。

    研究團(tuán)隊(duì)核心成員

    本文的第一作者是北京大學(xué)元培學(xué)院人工智能方向本科生陳博遠(yuǎn),目前在北京大學(xué)對齊與交互實(shí)驗(yàn)室(PAIR Lab)從事研究工作,師從楊耀東教授。

    其主要研究興趣為強(qiáng)化學(xué)習(xí)、大模型對齊、前沿AI安全風(fēng)險(xiǎn),聚焦于構(gòu)建安全可信賴的人工智能系統(tǒng)。

    陳博遠(yuǎn)曾在國際頂級會(huì)議NeurIPS發(fā)表口頭報(bào)告(前 0.45%)和亮點(diǎn)論文(前 0.3%),多篇論文被收錄 ACL, NeurIPS 等國際頂級會(huì)議和期刊,獲 ACL2025 最佳論文獎(jiǎng),谷歌學(xué)術(shù)引用 1600 余次。他曾受邀參加聯(lián)合國秘書長科學(xué)顧問委員會(huì)討論,于國家自然科學(xué)基金委雙清論壇作特邀報(bào)告。

    陳博遠(yuǎn)還入選首批北京市自然科學(xué)基金本科生項(xiàng)目資助、獲評北京大學(xué) 2025 學(xué)生年度人物(全校 10 位)、商湯獎(jiǎng)學(xué)金(全國 25 位)、北京大學(xué)五四獎(jiǎng)學(xué)金(最高學(xué)生榮譽(yù))等。

    全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

    參考鏈接:https://cby-pku.github.io/

    論文的通訊作者楊耀東是北京大學(xué)人工智能研究院助理教授,智源研究院大模型安全研究中心主任。

    楊耀東教授的主要研究方向?yàn)橹悄荏w交互學(xué)習(xí)與對齊,致力于大模型的可信應(yīng)用與安全落地,科研領(lǐng)域涵蓋強(qiáng)化學(xué)習(xí)、AI 對齊與具身智能。在 Nature Machine Intelligence、Cell Matter、AIJ、TPAMI 等國際頂級期刊和會(huì)議發(fā)表論文二百余篇,谷歌學(xué)術(shù)引用逾 12000+ 次,自 2022 年以來位列 CSRanking 北大人工智能與機(jī)器學(xué)習(xí)方向?qū)W者首位,入選 Scopus 全球 Top2% 頂尖科學(xué)家。

    近年來,楊耀東教授將研究重點(diǎn)進(jìn)一步拓展至大模型與通用智能背景下的對齊問題,探索如何從算法與系統(tǒng)層面出發(fā),使模型行為更好地符合人類意圖與價(jià)值預(yù)期。

    除科研工作外,他也積極參與學(xué)術(shù)社區(qū)建設(shè)與人才培養(yǎng),持續(xù)指導(dǎo)學(xué)生在 AI 安全與對齊方向開展研究,其指導(dǎo)的團(tuán)隊(duì)北大對齊小組(PKU-Alignment Group)在該領(lǐng)域逐步形成了具有國際影響力的研究群體。

    全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

    參考鏈接:https://www.yangyaodong.com/

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

    分享:
    相關(guān)文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個(gè)人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說