強化學習的10個現實應用

本文作者： AI研習社-譯站

2020-11-12 11:26

導語：本文我們將會聚焦于強化學習在現實生活中的實際應用。

譯者：AI研習社（季一帆、Zephyr178）

雙語原文鏈接：10 Real-Life Applications of Reinforcement Learning

強化學習的10個現實應用

在強化學習中，我們使用獎懲機制來訓練agents。Agent做出正確的行為會得到獎勵，做出錯誤的行為就會受到懲罰。這樣的話，agent就會試著將自己的錯誤行為最少化，將自己的正確行為最多化。

強化學習的10個現實應用

本文我們將會聚焦于強化學習在現實生活中的實際應用。

無人駕駛中的應用

很多論文都提到了深度強化學習在自動駕駛領域中的應用。在無人駕駛中，需要考慮的問題是非常多的，如：不同地方的限速不同限速，是否是可行駛區域，如何躲避障礙等問題。

有些自動駕駛的任務可以與強化學習相結合，比如軌跡優化，運動規劃，動態路徑，最優控制，以及高速路中的情景學習策略。

比如，自動停車策略能夠完成自動停車。變道能夠使用q-learning來實現，超車能應用超車學習策略來完成超車的同時躲避障礙并且此后保持一個穩定得速度。

AWS DeepRacer是一款設計用來測試強化學習算法在實際軌道中的變現的自動駕駛賽車。它能使用攝像頭來可視化賽道，并且可以使用強化學習模型來控制油門和方向。

強化學習的10個現實應用

Wayve.ai已經成功應用了強化學習來訓練一輛車如何在白天駕駛。他們使用了深度強化學習算法來處理車道跟隨任務的問題。他們的網絡結構是一個有4個卷積層和3個全連接層的深層神經網絡。例子如圖。中間的圖像表示駕駛員視角。

強化學習的10個現實應用

強化學習在工業自動化中的應用

在工業自動化中，基于強化學習的機器人被用于執行各種任務。這些機器人不僅效率比人類更高，還可以執行危險任務。

Deepmind使用AI智能體來冷卻Google數據中心是一個成功的應用案例。通過這種方式，節省了40%的能源支出。現在，這些數據中心完全由人工智能系統控制，除了很少數據中心的專家，幾乎不再需要其他人工干預。該系統的工作方式如下：

每五分鐘從數據中心獲取數據快照，并將其輸入深度神經網絡
預測不同組合將如何影響未來的能源消耗
在符合安全標準的情況下，采取具有最小功耗的措施
向數據中心發送相應措施并實施操作

當然，具體的措施還是由本地控制系統操作完成。

強化學習在金融貿易中的應用

有監督的時間序列模型可用來預測未來的銷售額，還可以預測股票價格。然而，這些模型并不能決定在特定股價下應采取何種行動，強化學習（RL）正是為此問題而生。通過市場基準標準對RL模型進行評估，確保RL智能體正確做出持有、購買或是出售的決定，以保證最佳收益。

通過強化學習，金融貿易不再像從前那樣由分析師做出每一個決策，真正實現機器的自動決策。例如，IBM構建有一個強大的、面向金融交易的強化學習平臺，該平臺根據每一筆金融交易的損失或利潤來調整獎勵函數。

強化學習在自然語言處理NLP中的應用

RL可用于文本摘要、問答和機器翻譯等NLP任務。

Eunsol Choi、Daniel Hewlett和Jakob Uszkoret在論文中提出了一種基于RL的長文本問答方法。具體而言，首先從文檔中選出幾個與問題相關的句子，然后結合所選句子和問句通過RNN生成答案。

強化學習的10個現實應用

該論文結合監督學習與強化學習生成抽象文本摘要。論文作者Romain Paulus, Caiming Xiong和Richard Socher等人希望解決基于注意力的RNN編解碼模型在摘要生成中面臨的問題。論文提出了一種新的內注意力神經網絡，通過該注意力可以關注輸入并連續生成輸出，監督學習和強化學習被用于模型訓練。

強化學習的10個現實應用

至于機器翻譯，科羅拉多大學和馬里蘭大學的研究人員提出了一種基于強化學習的機器翻譯模型，該模型能夠學習預測單詞是否可信，并通過RL來決定是否需要輸入更多信息來幫助翻譯。

強化學習的10個現實應用

斯坦福大學、俄亥俄州立大學和微軟研究所的研究人員提出Deep-RL，可用于對話生成任務。Deep-RL使用兩個虛擬智能體模擬對話，并學習多輪對話中的未來獎勵的建模，同時，應用策略梯度方法使高質量對話獲得更高獎勵，如連貫性、信息豐富度和簡潔性等。

強化學習的10個現實應用

點此鏈接查看更多RL在NLP中的應用。

強化學習在醫療保健中的應用

醫療保健領域，RL系統為患者只能提供治療策略。該系統能夠利用以往的經驗找到最優的策略，而無需生物系統的數學模型等先驗信息，這使得基于RL的系統具有更廣泛的適用性。

基于RL的醫療保健動態治療方案（DTRs）包括慢性病或重癥監護、自動化醫療診斷及其他一些領域。

強化學習的10個現實應用

DTRs的輸入是一組對患者的臨床觀察和評估數據，輸出則是每個階段的治療方案。通過RL，DTRs能夠確定患者在特定時間的最佳治療方案，實現時間依賴性決策。

在醫療保健中，RL方法還可用于根據治療的延遲效應改善長期結果。

對于慢性病，RL方法還可用于發現和生成最佳DTRs。

通過本文，您可以深入研究RL在醫療保健中的應用。

強化學習在工程中的應用

在工程領域，Facebook提出了開源強化學習平臺?——?Horizon，該平臺利用強化學習來優化大規模生產系統。在Facebook內部，Horizon被用于：

個性化指南
向用戶發送更有意義的通知
優化視頻流質量

Horizon主要流程包括：

模擬環境
用于數據處理的分布式數據平臺
模型的訓練與輸出

一個典型例子是，強化學習根據視頻緩沖區的狀態和其他機器學習系統的估計可選擇的為用戶提供低比特率或高比特率的視頻。

Horizon還能夠處理以下問題：

大規模部署
特征規范化
分布式學習
超大規模數據的處理和服務，如包含高維數據和數千特征的數據集。

強化學習在新聞推薦中的應用

在新聞推薦領域，用戶的喜好不是一成不變的，僅僅基于評論和（歷史）喜好向用戶推薦新聞無法一勞永逸。基于強化學習的系統則可以動態跟蹤讀者反饋并更新推薦。

構建這樣一個系統需要獲取新聞特征、讀者特征、上下文特征和讀者閱讀的新聞特征。其中，新聞特征包括但不限于內容、標題和發布者；讀者特征是指讀者與內容的交互方式，如點擊和共享；上下文特征包括新聞的時間和新鮮度等。然后根據用戶行為定義獎勵函數，訓練RL模型。

強化學習在游戲中的應用

RL在游戲領域中的應用備受關注，且極為成功，最典型的便是前些年人盡皆知的AlphaGoZero。通過強化學習，AlphaGoZero能夠從頭學習圍棋游戲，并自我學習。經過40天的訓練，AlphaGoZero的表現超過了世界排名第一的柯潔。該模型僅包含一個神經網絡，且只將黑白棋子作為輸入特征。由于網絡單一，一個簡單的樹搜索算法被用來評估位置移動和樣本移動，而無需任何蒙特卡羅展開。

實時競價——強化學習在廣告營銷中的應用

該論文提出了一種基于多智能體強化學習的實時競價策略。對大量廣告商進行聚類，然后為每個聚類分配一個策略投標智能體實現競標。同時，為了平衡廣告主之間的競爭與合作，論文還提出了分布式協同多智能體競價（DCMAB）。

在市場營銷中，選擇正確的目標全體才可帶來高回報，因此個人精準定位至關重要的。論文以中國最大的電子商務平臺淘寶網為研究對象，表明上述多智能體強化學習優于現有的單智能體強化學習方法。

強化學習在機器人控制中的應用

通過深度學習和強化學習方法訓練機器人，可以使其能夠抓取各種物體，甚至是訓練中未出現過的物體。因此，可將其用于裝配線上產品的制造。

上述想法是通過結合大規模分布式優化和QT-Opt（一種深度Q-Learning變體）實現的。其中，QT-Opt支持連續動作空間操作，這使其可以很好處理機器人問題。在實踐中，先離線訓練模型，然后在真實的機器人上進行部署和微調。

針對抓取任務，谷歌AI用了4個月時間，使用7個機器人運行了800機器人時。

強化學習的10個現實應用

實驗表明，在700次實驗中，QT-Opt方法有96%的概率成功抓取陌生的物體，而之前的方法僅有78%的成功率。

總結

強化學習是一個非常有趣且值得廣泛研究的領域，RL技術的進步及其在現實各領域的應用勢必將取得更大的成功。

在本文中，我們粗略介紹了強化學習的不同領域應用。希望這能激發起你的好奇心，并引起你對RL的熱愛和研究。如果想了解更多，推薦查看這兩個項目：https://github.com/aikorea/awesome-rl，https://github.com/dennybritz/reinforcement-learning。

AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作，通過提供學習、實戰和求職服務，為AI學術青年和開發者的交流互助和職業發展打造一站式平臺，致力成為中國最大的科技創新人才聚集地。

如果，你也是位熱愛分享的AI愛好者。歡迎與譯站一起，學習新知，分享成長。

強化學習的10個現實應用