【RL】A Minimalist Approach to Offline Reinforcement Learning

2023-08-26 04:44 作者:棄安耐爾 0人讀過 | 我要投稿

標(biāo)題、錄用情況

A Minimalist Approach to Offline Reinforcement Learning；Nips 2021

作者、單位

Scott Fujimoto1,2 Shixiang Shane Gu2

1Mila, McGill University 2Google Research, Brain Team

導(dǎo)讀

針對(duì)Offline RL中的OOD（Out of Distribution）問題，現(xiàn)有的方法會(huì)導(dǎo)致額外的復(fù)雜的成本。該文章提出了一個(gè)使RL算法在Offline場(chǎng)景可以work的最簡化方法，即添加行為克隆項(xiàng)并對(duì)State數(shù)據(jù)進(jìn)行歸一化，達(dá)到了和現(xiàn)有SOTA相當(dāng)或更甚的效果。

研究背景及動(dòng)機(jī)

在RL中，與環(huán)境的交互往往成本很高，有危險(xiǎn)性或者很具有挑戰(zhàn)性。Offline RL可以通過事先收集的專家數(shù)據(jù)解決這一問題，但其本身存在OOD的問題，針對(duì)OOD，現(xiàn)有的解決方案太復(fù)雜，或者難以復(fù)現(xiàn)，難以遷移到其它算法上。

意義

以極小的代價(jià)、最簡單的改動(dòng)緩解了OOD的問題。

方法

在TD3的基礎(chǔ)上增加了（1）行為克隆項(xiàng)約束以及（2）對(duì)State進(jìn)行歸一化。

其中Si定義如下，μ為均值，σ為方差，e為歸一化約束，取10exp(?3)。

λ為參數(shù)，RL（在最大化 Q）和模仿（在最小化 BC 項(xiàng)中）之間的平衡非常容易受到 Q 的規(guī)模的影響，因此需要平衡Q與BC項(xiàng)（即后半部分）的數(shù)量級(jí)。通常來說action的范圍為[-1, 1]，因此BC項(xiàng)最大值為4，所以在Q前要通過λ加權(quán)。