【RL】A Minimalist Approach to Offline Reinforcement Learning

標(biāo)題、錄用情況
A Minimalist Approach to Offline Reinforcement Learning;Nips 2021
作者、單位
Scott Fujimoto1,2 Shixiang Shane Gu2
1Mila, McGill University 2Google Research, Brain Team
導(dǎo)讀
針對(duì)Offline RL中的OOD(Out of Distribution)問題,現(xiàn)有的方法會(huì)導(dǎo)致額外的復(fù)雜的成本。該文章提出了一個(gè)使RL算法在Offline場(chǎng)景可以work的最簡化方法,即添加行為克隆項(xiàng)并對(duì)State數(shù)據(jù)進(jìn)行歸一化,達(dá)到了和現(xiàn)有SOTA相當(dāng)或更甚的效果。
研究背景及動(dòng)機(jī)
在RL中,與環(huán)境的交互往往成本很高,有危險(xiǎn)性或者很具有挑戰(zhàn)性。Offline RL可以通過事先收集的專家數(shù)據(jù)解決這一問題,但其本身存在OOD的問題,針對(duì)OOD,現(xiàn)有的解決方案太復(fù)雜,或者難以復(fù)現(xiàn),難以遷移到其它算法上。
意義
以極小的代價(jià)、最簡單的改動(dòng)緩解了OOD的問題。
方法
在TD3的基礎(chǔ)上增加了(1)行為克隆項(xiàng)約束以及(2)對(duì)State進(jìn)行歸一化。

其中Si定義如下,μ為均值,σ為方差,e為歸一化約束,取10exp(?3)。

λ為參數(shù),RL(在最大化 Q)和模仿(在最小化 BC 項(xiàng)中)之間的平衡非常容易受到 Q 的規(guī)模的影響,因此需要平衡Q與BC項(xiàng)(即后半部分)的數(shù)量級(jí)。通常來說action的范圍為[-1, 1],因此BC項(xiàng)最大值為4,所以在Q前要通過λ加權(quán)。

需要注意的是,在實(shí)踐中,此處分母上的均值是針對(duì)mini-batches的范圍,而不是整個(gè)數(shù)據(jù)集。α?為參數(shù),取值為2.5,則Q項(xiàng)的范圍為[-2.5,? 2.5]。
實(shí)驗(yàn)結(jié)果
本文在D4RL上進(jìn)行了實(shí)驗(yàn),對(duì)比算法包括兩個(gè)SOTA:CQL,Fisher-BC以及BRAC,AWAC.
結(jié)果顯示整體表現(xiàn)與Fisher-BC相當(dāng),優(yōu)于CQL,BRAC,AWAC.


運(yùn)行速度完勝

消融實(shí)驗(yàn)如下,顯然BC項(xiàng)起到了至關(guān)重要的作用,歸一化影響較小。

α取2、3時(shí)效果明顯較好,文中取值為2.5,

值得一提的是
本文的方法極其簡單,只需要更改幾行代碼;
Rebuttal場(chǎng)面很有意思(B站不支持站外鏈接直接跳轉(zhuǎn)):
https://openreview.net/forum?id=Q32U7dzWXpc
https://zhuanlan.zhihu.com/p/450152373
……