發(fā)布于:2020-12-24 16:15:48
0
871
0
在過去的幾年中,深度強化學(xué)習(xí)取得了重大進展,在機器人控制,游戲和科學(xué)問題方面取得了成功。盡管RL方法提供了一種通用模式,代理可以從其自身與環(huán)境的交互中學(xué)習(xí),但是對“主動”數(shù)據(jù)收集的要求也是將RL方法應(yīng)用于實際問題的主要障礙,因為主動數(shù)據(jù)收集通常是昂貴且可能不安全。RL的另一種“數(shù)據(jù)驅(qū)動”范式,稱為離線RL (或 批處理RL )最近,作為一種有效的現(xiàn)實世界RL的可行途徑,它重新獲得了普及。離線RL僅需要從以前收集的數(shù)據(jù)集中學(xué)習(xí)技能,而無需任何活躍的環(huán)境交互作用。它提供了一種利用多種來源的先前收集的數(shù)據(jù)集的方式來構(gòu)建復(fù)雜的決策引擎的方法,包括人類演示,先前的實驗,特定領(lǐng)域的解決方案,甚至是來自不同但相關(guān)問題的數(shù)據(jù)。
最近的幾篇論文,包括我們先前的工作,都討論了離線RL是一個具有挑戰(zhàn)性的問題-它需要處理分布變化,結(jié)合函數(shù)逼近和采樣誤差可能使標(biāo)準(zhǔn)RL方法無法實現(xiàn)從靜態(tài)數(shù)據(jù)集中有效學(xué)習(xí)。然而,在過去的一年中,已經(jīng)提出了許多方法來解決這個問題,并且在該領(lǐng)域中已經(jīng)取得了實質(zhì)性的進展,無論是在開發(fā)新算法還是在實際問題上的應(yīng)用。在此博客文章中,我們將討論我們的兩項改進離線RL前沿的工作-保守Q學(xué)習(xí)(CQL),這是一種用于離線RL和COG的簡單有效的算法,這是一種機器人學(xué)習(xí)框架,它利用有效的離線RL方法(例如CQL)來允許座席將過去的數(shù)據(jù)與最近的經(jīng)驗聯(lián)系起來,從而使機器人在執(zhí)行各種新任務(wù)時需要執(zhí)行某種“常識”概括場景或初始條件。COG框架中的原理也可以應(yīng)用于其他領(lǐng)域,并且不適用于機器人技術(shù)。
CQL:離線RL的一種簡單有效的方法
離線RL中的主要挑戰(zhàn)是成功處理分配轉(zhuǎn)移:學(xué)習(xí)有效的技能需要偏離數(shù)據(jù)集中的行為,并對看不見的結(jié)果做出反事實的預(yù)測(即回答“假設(shè)”查詢)。但是,無法可靠地做出對事實的預(yù)測,這些預(yù)測與數(shù)據(jù)集中的行為有很大差異。憑借RL算法中的標(biāo)準(zhǔn)更新過程(例如,Q學(xué)習(xí)在分布外輸入處查詢Q函數(shù),以在訓(xùn)練期間計算自舉目標(biāo)),標(biāo)準(zhǔn)的策略外深度RL算法往往會高估值這種看不見的結(jié)果,從而偏離了數(shù)據(jù)集而獲得了看似有希望的結(jié)果,但實際上最終以失敗告終。
在離線數(shù)據(jù)集上訓(xùn)練標(biāo)準(zhǔn)的非策略性深度RL算法(例如SAC)時,高估了看不見的,分布不均的結(jié)果。請注意,盡管在所有情況下該政策的回報均為負(fù),但Q函數(shù)估計(即算法對其性能的信念)非常高(?1010 在某些情況下)。
學(xué)習(xí)保守的Q函數(shù)
面對這種分布轉(zhuǎn)移的“安全”策略應(yīng)保持保守:如果我們明確地保守地估計未見成果的價值(即為它們分配一個低值),則可以保證執(zhí)行未見行為的政策的估計價值或績效。很小。將此類保守估計用于策略優(yōu)化將防止策略執(zhí)行看不見的操作,并且策略將可靠地執(zhí)行。保守的Q學(xué)習(xí)(CQL)正是這樣做的-它學(xué)習(xí)了一個價值函數(shù),以便該學(xué)習(xí)的價值函數(shù)下的策略的估計性能下限其真實值。該下限屬性可確保不會高估看不見的結(jié)果,從而防止離線RL帶來的主要問題。
單純的Q功能訓(xùn)練可能導(dǎo)致高估了看不見的動作(即,沒有支持的動作),這會使低回報行為錯誤地顯示出希望。通過低估某個狀態(tài)下看不見的行為的Q值函數(shù),CQL確??床灰姷男袨榈闹挡粫桓吖?,從而產(chǎn)生較低界的屬性。
為了獲得策略的實際Q值功能的下限,CQL使用兩個目標(biāo)的總和來訓(xùn)練Q功能-標(biāo)準(zhǔn)TD誤差和正則化器,該規(guī)則化器將帶有高估值的未發(fā)現(xiàn)動作的Q值最小化,同時將其最大化數(shù)據(jù)集上的預(yù)期Q值:
然后,我們可以保證所學(xué)政策的回報估計 π 下 問πCQL 是實際政策效果的下限:
這意味著,通過在培訓(xùn)期間添加簡單的正則化函數(shù),我們可以獲得非高估的Q函數(shù),并將其用于策略優(yōu)化??梢允褂脭?shù)據(jù)集中的樣本來估計正則化器,因此不需要以前的工作所需要的明確的行為策略估計。行為策略估計不僅需要更多的機制,而且誘發(fā)的估計錯誤(例如,當(dāng)數(shù)據(jù)分布難以建模時)可能會損害使用此估計的下游離線RL。另外,可以通過調(diào)整正則化器的形式來導(dǎo)出CQL的大量算法實例化,前提是它仍可防止對看不見的動作進行過高估計。
CQL中唯一引入的變化是針對Q功能的修改的訓(xùn)練目標(biāo),如上所述。這使得直接在任何標(biāo)準(zhǔn)的深度Q學(xué)習(xí)或actor批評實現(xiàn)之上使用CQL變得很簡單。
曾經(jīng)保守估計政策價值 問πCQL 如要獲得CQL,CQL只需將此估算值插入?yún)⑴c者評論或Q學(xué)習(xí)方法中,然后進行更新 π 從而使保守的Q函數(shù)最大化。
那么,CQL的表現(xiàn)如何?
我們評估了許多領(lǐng)域的CQL,包括基于圖像的Atari游戲以及D4RL基準(zhǔn)測試中的多項任務(wù)。在這里,我們介紹了D4RL基準(zhǔn)測試在Ant Maze域上的結(jié)果。這些任務(wù)的目標(biāo)是將螞蟻從開始狀態(tài)導(dǎo)航到目標(biāo)狀態(tài)。離線數(shù)據(jù)集由螞蟻的隨機運動組成,但沒有單個軌跡可以解決任務(wù)。任何成功的算法都需要將不同的子軌跡“縫合”在一起才能獲得成功。而先前的方法(BC,SAC,BCQ,BEAR,BRAC,AWR,AlgaeDICE)在簡單的U形迷宮中表現(xiàn)合理,他們無法在較硬的迷宮中縫制軌跡。實際上,CQL是唯一取得非凡進展的算法,在大中型迷宮上成功率超過50%和> 14%。這是因為像在先方法中那樣將學(xué)習(xí)策略明確地約束到數(shù)據(jù)集往往過于保守:如果看不見的動作具有較低的學(xué)習(xí)Q值,則無需將動作約束到數(shù)據(jù)。由于CQL施加了“價值感知”正則化器,因此避免了這種過度保守的態(tài)度。
在D4RL的螞蟻迷宮導(dǎo)航任務(wù)中,以成功率(范圍[0,100])衡量的CQL和其他離線RL算法的性能。可以觀察到,在較硬的迷宮域上,CQL的性能要比普通方法好得多。
在基于圖像的Atari游戲中,我們觀察到在某些情況下CQL優(yōu)于先前方法(QR-DQN,REM),例如在Breakout和Q上分別是5倍和36倍。?伯特分別指出,CQL是一種用于連續(xù)控制和離散動作任務(wù)的有前途的算法,它不僅可以從低維狀態(tài)運行,而且還可以作為原始圖像觀測工作。
有效的離線RL方法可以啟用哪些新功能?
離線RL的大多數(shù)進步都已經(jīng)在標(biāo)準(zhǔn)RL基準(zhǔn)(包括如上所述的CQL)上進行了評估,但是這些算法是否準(zhǔn)備好解決那些首先激發(fā)離線RL研究的現(xiàn)實問題?與其他決策方法相比,脫機RL所承諾的一項重要功能是能夠攝取大型,多樣的數(shù)據(jù)集并生成廣泛適用于新場景的解決方案。例如,政策是在推薦視頻的有效的新用戶或政策可以執(zhí)行在機器人任務(wù)新場景。泛化能力在我們可能構(gòu)建的幾乎所有機器學(xué)習(xí)系統(tǒng)中都是必不可少的,但是典型的RL基準(zhǔn)測試任務(wù)不會測試此屬性。我們采取對解決這個問題的一個步驟,而簡單,應(yīng)用上的有效數(shù)據(jù)驅(qū)動的離線RL方法頂級域名無關(guān)的原則,可以在實現(xiàn)高效的“常識”中的AI系統(tǒng)的概括。
COG:通過離線RL推廣的學(xué)習(xí)技能
COG是一種算法框架,用于利用大型,未標(biāo)記的各種行為數(shù)據(jù)集通過離線RL學(xué)習(xí)通用策略。作為一個激勵性的例子,考慮一個受過訓(xùn)練的機器人可以從打開的抽屜中取出物體(如下所示)。當(dāng)放置在關(guān)閉抽屜的場景中時,該機器人可能會發(fā)生故障,因為它之前從未見過這種情況(或初始狀態(tài))。
與現(xiàn)實世界中的場景類似,在這些場景中,大型的未標(biāo)記數(shù)據(jù)集與有限的特定于任務(wù)的數(shù)據(jù)一起可用,我們的代理也提供了兩種類型的數(shù)據(jù)集。特定于任務(wù)的數(shù)據(jù)集包含與任務(wù)相關(guān)的行為,但是先前的數(shù)據(jù)集可以包含在相同環(huán)境/設(shè)置中執(zhí)行的許多隨機或腳本行為。如果此先前數(shù)據(jù)集的子集可用于擴展我們的技能(如下面的藍色所示),我們可以利用它來學(xué)習(xí)可以從新的初始條件解決任務(wù)的策略。請注意,并非所有先驗數(shù)據(jù)都必須對下游任務(wù)有用(下面的紅色顯示),我們也不需要此先驗數(shù)據(jù)集具有任何顯式標(biāo)簽或獎勵。
討論,未來工作和總結(jié)
在過去的一年中,我們已采取步驟開發(fā)離線RL算法,該算法可以更好地處理現(xiàn)實世界中的復(fù)雜性,例如多模式數(shù)據(jù)分布,原始圖像觀察,與任務(wù)無關(guān)的先驗數(shù)據(jù)集等。然而,仍然存在一些具有挑戰(zhàn)性的問題。像監(jiān)督學(xué)習(xí)方法一樣,由于對數(shù)據(jù)集進行過多的訓(xùn)練,離線RL算法也可能“過度擬合”。這種“過度擬合”的性質(zhì)很復(fù)雜-它可能表現(xiàn)為過于保守和過于樂觀的解決方案。在許多情況下,這種“過度擬合”現(xiàn)象會導(dǎo)致條件不佳的神經(jīng)網(wǎng)絡(luò)(例如,過度預(yù)測的網(wǎng)絡(luò)),目前尚缺乏對該現(xiàn)象的確切了解。因此,未來工作的一個有趣途徑是設(shè)計可用于策略檢查點選擇或提前停止的模型選擇方法,從而緩解此問題。另一個途徑是了解此“過擬合”問題根源的原因,并利用這些見解直接提高離線RL算法的穩(wěn)定性。
最后,隨著我們逐漸走向現(xiàn)實世界,自我監(jiān)督學(xué)習(xí),表示學(xué)習(xí),遷移學(xué)習(xí),元學(xué)習(xí)等相關(guān)領(lǐng)域?qū)τ谂c離線RL算法結(jié)合應(yīng)用至關(guān)重要,尤其是在數(shù)據(jù)有限的環(huán)境中。這自然引發(fā)了一些理論和經(jīng)驗問題:哪種表示學(xué)習(xí)方案最適合離線RL方法?使用從數(shù)據(jù)中學(xué)到的獎勵功能時,離線RL方法的效果如何?哪些任務(wù)適合在離線RL中傳輸?我們熱切期待來年在該領(lǐng)域的進展。