人，才是強化學習在真實世界中面臨的真正挑戰

本文作者： MrBear

編輯：幸麗娟

2019-09-11 23:00

導語：我們距離真實世界中的強化學習應用落地可能還有很長的一段路要走。

雷鋒網 AI 科技評論按：隨著 DeepMind、OpenAI 等一系列科技巨頭對強化學習技術的應用，越來越多的科研工作者投入到該領域的研發中。然而，目前大多數的研究工作還停留在通過游戲進行仿真的階段。在我們對研究者們在 Atari、星際爭霸等游戲中戰勝人類職業玩家而沾沾自喜的同時，我們更應該意識到，目前的強化學習技術還遠未達到滿足真實世界中通用任務需求的水準。其中，人類對強化學習的獎勵函數設計、訓練過程自我調節等機制的影響是目前研究者們急需突破的重要瓶頸。

如果想要激發強化學習的全部潛力，就需要將強化學習智能體嵌入到真實世界的經驗流中，讓這些智能體在我們的世界中，而不僅僅是在它們自己的世界中采取行動、探索和學習。——《強化學習簡介》第二版，Sutton&Barto，2018。

最近，一些被高度認可的研究表明，人工智能體可以在玩 Atari 游戲（https://www.nature.com/articles/nature14236）或下圍棋（https://www.nature.com/articles/nature16961）時，在沒有人類監督、而是使用強化學習技術進行多輪自我試錯的情況下（https://www.nature.com/articles/nature24270），取得與人類相當甚至超過人類的表現。這是人工智能研究領域的一項巨大成果，它為那些使用監督學習成本太高的應用開啟了另一扇解決方案的大門，也對游戲之外的許多應用領域產生了影響。那么問題來了，如何將強化學習智能體在像游戲這種理想環境（其中獎勵信號被明確定義，且十分豐富）中超越人類的性能表現遷移到具有一系列缺點的真實世界環境中。而在這些缺點中，首要的就是人類「教師」的缺點（如下面的漫畫所示，他們顯然無法通過圖靈測試）。

人，才是強化學習在真實世界中面臨的真正挑戰

在自然語言處理領域，真實世界強化學習中的人類因素

讓我們看看人類的學習場景，例如，對于自然語言翻譯來說：一個學習翻譯和口譯的人類學生必須學會：根據不同類型的反饋得出正確的翻譯結果。在某些情況下，人類教師會以翻譯的黃金標準形式提供監督信號。然而，在大多數情況下，學生必須根據較弱的教師反饋進行學習，這些反饋會指出學生完成任務的效果如何，但并不知道如果學生翻譯的結果不同，將會導致發生什么情況，也不知道正確的翻譯應該是什么樣子。與此同時，最優秀的學生會變得像老師一樣，因為他們習得了一套自行控制學習過程的策略（https://journals.sagepub.com/doi/full/10.3102/003465430298487）。

現在，如果我們的目的是構建一個像人類學生一樣學習翻譯的人工智能體，在它與作為其老師的專業的人類翻譯者進行互動的過程中，我們會看到相同的對「成本-效益」進行權衡的模式：人類翻譯者不會希望提供一個以正確譯文的形式存在的監督信號（即使這種信號是最有用的），作為對智能體生成的每一個翻譯結果的反饋。相反，在某些情況下，關于系統輸出（或部分輸出）的質量較弱的反饋信號是一種更高效「學生-老師」互動方式。另一種情況是在線翻譯系統的用戶：他們將扮演「消費者」的角色——有時，他們可能會給出反饋信號，但很少會給出完整的正確譯文。

在訓練人類和智能體的時候，我們也看到了類似的教師反饋信號的模式：人類翻譯學生的人類教師，以及作為人工智能體的老師的專業翻譯者都是人類。他們給出的反饋信號是模糊的、有誤導性的、稀疏的（可參考上面的漫畫）。這與強化學習（在游戲環境下）大獲成功的情況截然不同。在理想的環境下，獎勵信號是明確、準確且豐富的。有人可能會說，在游戲中與人類對抗的強化學習智能體具有不公平的優勢，因為它們所處的人造環境很適合它們發揮自己的能力。

然而，為了在根據人類的反饋進行學習的情況下，也同樣成功地進行強化學習，我們則不應該輕視這些成功的例子，而應該從中學習：目標應該是給根據人類反饋進行學習的強化學習智能體任何可能的有利條件，從而在這種困難的學習場景下取得成功。為此，我們必須更好地理解根據人類反饋進行學習所面臨的真正挑戰有哪些。

免責聲明

與之前的根據人類強化信號進行學習的工作（例如，Knox、Stone等人的論文「Interactively Shaping Agents via Human Reinforcement」，https://dl.acm.org/citation.cfm?id=1597738 ；Chiristiano 等人于 2017 年發表的論文「Deep reinforcement learning from human preferences」，https://arxiv.org/abs/1706.03741；以及 Leike 于 2018 年發表的論文「Scalable agent alignment via reward modeling: a research direction」，https://arxiv.org/abs/1811.07871）不同，我們面臨的場景并不是使用人類知識來降低樣本復雜度，從而加速系統的學習過程，而是一種只存在人類反饋的交互式學習場景。該場景適用于許多個性化的情況，在這些場景下，以有監督的方式預訓練的系統會根據人類用戶的反饋在交互式學習過程中被調整和改進。例如，在線廣告、機器翻譯（我們接下來將集中討論）。

最近，Dulac-Arnold 等人在 2019 年發表的工作「Challenges of Real-World Reinforcement Learning」（https://arxiv.org/abs/1904.12901v1）已經認識到，現實世界中的系統定義不清的現實情況正在阻礙現實世界強化學習的發展。他們解決了諸如離線學習、樣本有限情況下的探索、高維動作空間、或非確定性獎勵函數等問題。這些挑戰對于控制落地在物理世界中的系統或機器人的強化學習模型是非常重要的。然而，他們嚴重低估了交互式學習中的人類因素。我們將基于他們的論文，提出解決一些現實世界強化學習領域公認的挑戰的方案。

確定性日志條件下的反事實學習

在「Challenges of Real-World Reinforcement Learning」一文中，Dulac-Arnold 等人需要處理的問題之一是：需要在系統無法在線更新的應用程序中用到離線或策略無關強化學習。在商業環境中，由于對低延遲的需求，以及希望在部署之前對系統更新進行離線測試，采用在線學習是不現實的。一個自然的解決方案就是利用反事實學習，復用日志交互數據，其中預測結果是由一個與目標系統不同的歷史系統得出的。

人，才是強化學習在真實世界中面臨的真正挑戰

然而，在線學習和使用日志數據進行的離線學習都會受到一個問題的困擾：在商業系統中，「探索」行為是不可行的，因為這意味著向用戶提供低質量的輸出。這會導致我們得到的是缺乏顯式探索的確定性日志記錄策略，讓使用標準的策略無關方法的應用程序變得不可靠。例如，逆傾向評分、雙重魯棒估計或加權重要性采樣（詳見 Precup 等人于 2000 年發表的論文「Eligibility Traces for Off-Policy Policy Evaluation」，https://www.semanticscholar.org/paper/Eligibility-Traces-for-Off-Policy-Policy-Evaluation-Precup-Sutton/44fe9e7f22f8986d48e3753543792d28b0494db0；Jiang 和 Li 于 2016 年發表的論文「Doubly Robust Off-policy Value Evaluation for Reinforcement Learning」，https://arxiv.org/abs/1511.03722，以及 Thomas 和 Brunskill 于 2016 年發表的「Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning」，https://arxiv.org/abs/1604.00923）等技術都依賴于日志系統對輸出空間的充分探索，作為反事實學習的先決條件。

事實上，Langford 等人于 20008 年發表的「Exploration scavenging」（https://arxiv.org/abs/1604.00923）以及 Strehl 等人于 2010 年發表的「Learning from Logged Implicit Exploration Data」（https://arxiv.org/abs/1003.0120）甚至給出了「與探索無關的反事實學習是不可能實現的」這樣的結論。

顯然，當我們可以與商業系統安全地進行交互（即商業系統確定性地與人類用戶進行交互）時，標準的策略無關學習并不適用。

那么，我們應該怎么辦呢？研究者們提出的一種解決方案是：寄希望于通過輸入和上下文的變化，隱式地進行探索。Chapelle 和 Li 于 2012 年發表的關于在線廣告的論文「An Empirical Evaluation of Thompson Sampling」（https://papers.nips.cc/paper/4321-an-empirical-evaluation-of-thompson-sampling）已經觀察到了這一點，Bastani 等人于 2017 年發表的論文「Mostly Exploration-Free Algorithms for Contextual Bandits」（https://arxiv.org/abs/1704.09011v5）從理論上進行了研究。然而，自然的探索是數據中固有的東西，而不是機器學習可以優化的。

另一種解決方案是，根據確定性的日志數據，考慮估計時的退化行為的具體情況，并找到可以消除「不可能性定理」的解決方案。其中，一種退化行為是：通過將所有日志數據的概率設置為 1，可以最大化數據日志的經驗獎勵。然而，提高低獎勵示例的概率顯然是不可取的（詳見 Swaninathan 和 Joachims 于 2015 年發表的論文「The Self-Normalized Estimator for Counterfactual Learning」，https://papers.nips.cc/paper/5748-the-self-normalized-estimator-for-counterfactual-learning；Lawrence 等人于 2017 年發表的「Counterfactual Learning for Machine Translation: Degeneracies and Solutions」，https://arxiv.org/abs/1711.08621；Lawrence 等人于 2017 年發表的「Counterfactual Learning from Bandit Feedback under Deterministic Logging: A Case Study in Statistical Machine Translation」，https://arxiv.org/abs/1707.09118）。

針對該問題，有一種叫做確定性傾向匹配的解決方案，它由 Lawrence 和 Riezler 于 2018 年在「Counterfactual Learning from Human Proofreading Feedback for Semantic Parsing」（https://arxiv.org/abs/1811.12239）和「Improving a Neural Semantic Parser by Counterfactual Learning from Human Bandit Feedback」（https://arxiv.org/abs/1805.01252）這兩篇論文中提出，并且在語義解析場景下用真實的人類反饋進行了測試。這種方法的核心思想如下：給定日志數據人，才是強化學習在真實世界中面臨的真正挑戰，其中是從日志系統中抽樣得來，同時獎勵是由人類用戶給出的。在確定性日志場景下，離線學習的一種可能的目標函數是最大化日志數據的期望獎勵：

人，才是強化學習在真實世界中面臨的真正挑戰

該函數使用了一個乘法控制變量進行重新加權，根據一些之前的迭代數據在 θ' 處使用 OSL（one-step-ate）算法進行估計（為了高效的梯度計算），其中

人，才是強化學習在真實世界中面臨的真正挑戰

這種自歸一化操作的作用是，防止低獎勵數據的概率在學習中由于去掉了較高獎勵輸出的概率質量而得以提高。這種操作向估計器引入了一個偏置（隨著 B 的增大而減小），然而，這使得在確定性日志系統中進行學習成為了可能，從而使強化學習智能體具有了「在此前被認為，理論上不可能在環境中學習」的優勢。對于語義解析場景的分析可參閱 Carolin 的博文：https://www.cl.uni-heidelberg.de/statnlpgroup/blog/parsing_when_gold_answers_unattainable/

根據人類的「老虎機反饋」學習獎勵估計器

Dulac-Arnold 等人在 2019 年發表的「Challenges of Real-World Reinforcement Learning」重點解決的另一類問題是利用有限的樣本、在高維動作空間中、使用非確定性的獎勵函數進行學習。這篇論文簡要描述了交互式機器翻譯場景下的學習：首先，除了收到人類用戶使用一個商用機器翻譯系統的「老虎機反饋」（bandit feedback）之外，期望任何東西都是不現實的。也就是說，一個機器翻譯系統的用戶只會給一個確定產生的最佳系統輸出提供一個獎勵信號，而不能期望他們對同一個輸入的多種翻譯結果打分。商用機器翻譯系統的提供者意識到了這一點，并且提供了非侵入式的用戶反饋接口，允許對翻譯結果進行后處理（負信號），或者在不作任何更改的情況下復制或共享翻譯結果（正信號）。

此外，人們對完整翻譯結果質量的判斷需要涉及到一個指數級的輸出空間，而翻譯質量的概念并不是一個定義明確的函數：一般來說，每個輸入的句子都有多種正確的譯文，而人類可能根據不同的上下文和個人因素對這些譯文做出不同的判斷。

令人驚訝的是，如何使強化學習智能體能夠更好地根據現實世界的人類反饋進行學習，卻很少被人研究。Dulac-Arnold 等人于 2019 年發表的「Challenges of Real-World Reinforcement Learning」可能看起來很直截了當——他們使用了熱啟動智能體來降低樣本復雜度，或者使用逆強化學習根據示范數據（demonstrations）恢復出獎勵函數，但是它們需要額外的獎勵信號（這恰恰是強化學習應該緩解的問題）。此外，當涉及到哪種類型的人類反饋最有利于訓練強化學習智能體時，人們發現很多籠統的描述都指出成對比較在生成量表方面是具有優勢的（相關論文：https://psycnet.apa.org/record/1928-00527-001），但是這些說法都缺乏實驗證據。

Kreutzer 等人于 2018 年發表的「Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning」（https://arxiv.org/abs/1805.10627）是一個例外。他們首次研究了這種人類反饋（成對的判斷或 5 分制反饋）機制，可以讓人類「老師」給出最可靠的反饋結果。他們還研究了這種類型的反饋可以學習出最好地近似人類獎勵、能被最好地融入端到端的強化學習任務中的獎勵估計器。5 分制反饋和成對判斷的示例界面如下所示：

人，才是強化學習在真實世界中面臨的真正挑戰

不同于普遍接受的看法，在 Kreutzer 等人 2018 年的工作中，他們發現 5 分制評分的評分者信度（Krippendorff’s α=0.51）要高于成對判斷（α=0.39）。他們通過對每個評分者的基本判斷進行標準化，消除個人偏見的可能性，從而解釋這一點，并且過濾掉了評分者信度較低的評分者。成對判斷主要的問題是差不多好或者差不多差的翻譯結果之間的區別（較小），我們可以將這樣的翻譯結果過濾掉，從而提高評分者信度，最終得到上文所述的評分者信度。

此外，當我們使用從 800 份譯文中收集到的判斷訓練獎勵估計器時，他們通過估計出的獎勵和對翻譯結果的后處理（相較于人類參考譯文）率之間的相關性來衡量可學習性。他們發現，使用 5 分制反饋訓練的回歸模型的可學習性要優于使用成對排序反饋訓練的「Bradley-Terry」模型（最近 Christiano 等人于 2017 年發表的「Deep Reinforcement Learning from Human Preferences」中使用了這種技術，https://arxiv.org/abs/1706.03741）。

最后，最重要的一點是，當他們將獎勵估計器融合到一個端到端的強化學習任務中時，他們發現，我們可以通過使用 800 個主要用戶判斷訓練的獎勵估計器，將神經機器翻譯系統的性能提升 1 個 BLEU 點以上。

這不僅僅是一個讓人充滿希望的實驗結果，指明了未來的真實世界強化學習研究可能的發展方向，而且也在一種方法中同時解決了 Dulac-Arnold 等人于 2019 年提出的三個挑戰（有限的樣本，高維動作空間，非確定性獎勵函數）：獎勵估計器可以在非常小的數據集上進行訓練，然后集成為高維動作空間上的獎勵函數。這個思路是為了解決一個簡單的問題：首先根據人類反饋學習到一個獎勵估計器，然后提供無限的反饋，從而泛化到策略無關強化學習中之前未見過的輸出上。

未來的研究方向：自我調節的互動式學習

如前文所述，人類學生必須能夠在信息量最大的學習信號最稀疏的情況下進行學習。這是因為教師的反饋是有成本的，因此必須「較為節約」地請求罕見的以黃金標準輸出的反饋。此外，學生必須學會如何自動調節他們的學習過程，學會在何時尋求幫助，以及尋求何種幫助。這雖然不同于經典的、反饋成本可以忽略不計的強化學習游戲（我們可以永遠就模擬游戲），但在現實世界中也是行不通的，特別是在探索行為成本非常高（非常危險）的情況下。

讓強化學習算法學會自我調節是一個新的研究方向，它試圖賦予人工智能體一種傳統上對于人類非常困難的決策能力——權衡使用不同類型的反饋進行學習的成本和效果。這些反饋包括教師演示或糾錯提供的全面監督、對學生預測的正面或負面獎勵形式的弱監督，或者學生產生的自監督信號。

人，才是強化學習在真實世界中面臨的真正挑戰

Kreutzer 和 Riezler 等人于 2019 年發表的「Self-Regulated Interactive Sequence-to-Sequence Learning」（https://arxiv.org/abs/1907.05190），展示了如何將一個自我調節（self-regulation）的學習任務轉化為一個學著去學習的問題，他們通過使智能體意識到「成本-獎勵」的權衡問題并對其進行管理，從而解決上述問題。

在交互式神經機器翻譯任務的仿真實驗中，他們發現自我調節算法是基于不確定性的主動學習算法的一個強大的替代方案（詳見 Settles 和 Crave 等人于 2008 年發表的「An Analysis of Active Learning Strategies for Sequence Labeling Tasks」，https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=2ahUKEwi3546ZrtDjAhWRr6QKHTJ7AgMQFjAAegQIBRAC&url=https%3A%2F%2Fwww.biostat.wisc.edu%2F~craven%2Fpapers%2Fsettles.emnlp08.pdf&usg=AOvVaw2hhRs69DCAsD2fv79JuL6b），并且發現了一種用于通過混合不同類型的反饋（包括教師糾錯、錯誤標記和自監督）實現最優質效平衡的 ?-貪婪策略。當然，他們的仿真場景抽象出了在真實世界的交互式機器學習中所期望的某些混雜變量。然而，所有這些都是對帶有人類教師的真實世界強化學習進行研究的有趣的方向。

從人類反饋看強化學習的吸引力

我們試圖表明，在現實世界強化學習任務中存在的一些挑戰源于人類老師。在之前的工作中，人們往往只考慮將人類老師作為一種幫助：在只能使用人類用戶的反饋讓人工智能體更加個性化、更加適應環境的情況下，標準的在監督學習中記住大量標簽的技巧，或者是在無限次迭代的過程中使用低成本的、準確的獎勵自動訓練強化學習系統，都不會起作用。

如果我們想要讓強化學習可以使用「具有成本意識」、深奧的人類教師來反饋訓練人工智能體，我們需要確保智能體不依賴大規模的探索，我們也必須學習那些優秀的人類反饋模型。看看人工智能體在相同的信息匱乏的情況下「如何學習、會學到什么」是非常有趣的，而人類學生不得不面對這些狀況。希望這樣的工作能夠催生可以通過成果適應人類的需求，從而幫助人類的人工智能體誕生！

via https://www.cl.uni-heidelberg.de/statnlpgroup/blog/hrl/ 雷鋒網雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

6人收藏

MrBear

知情人士

發私信

當月熱門文章