国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【RL】A Minimalist Approach to Offline Reinforcement Learning

2023-08-26 04:44 作者:棄安耐爾  | 我要投稿

標(biāo)題、錄用情況

A Minimalist Approach to Offline Reinforcement Learning;Nips 2021

作者、單位

Scott Fujimoto1,2 Shixiang Shane Gu2

1Mila, McGill University 2Google Research, Brain Team

導(dǎo)讀

針對(duì)Offline RL中的OOD(Out of Distribution)問題,現(xiàn)有的方法會(huì)導(dǎo)致額外的復(fù)雜的成本。該文章提出了一個(gè)使RL算法在Offline場(chǎng)景可以work的最簡化方法,即添加行為克隆項(xiàng)并對(duì)State數(shù)據(jù)進(jìn)行歸一化,達(dá)到了和現(xiàn)有SOTA相當(dāng)或更甚的效果。

研究背景及動(dòng)機(jī)

在RL中,與環(huán)境的交互往往成本很高,有危險(xiǎn)性或者很具有挑戰(zhàn)性。Offline RL可以通過事先收集的專家數(shù)據(jù)解決這一問題,但其本身存在OOD的問題,針對(duì)OOD,現(xiàn)有的解決方案太復(fù)雜,或者難以復(fù)現(xiàn),難以遷移到其它算法上。

意義

以極小的代價(jià)、最簡單的改動(dòng)緩解了OOD的問題。

方法

在TD3的基礎(chǔ)上增加了(1)行為克隆項(xiàng)約束以及(2)對(duì)State進(jìn)行歸一化。

其中Si定義如下,μ為均值,σ為方差,e為歸一化約束,取10exp(?3)。

λ為參數(shù),RL(在最大化 Q)和模仿(在最小化 BC 項(xiàng)中)之間的平衡非常容易受到 Q 的規(guī)模的影響,因此需要平衡Q與BC項(xiàng)(即后半部分)的數(shù)量級(jí)。通常來說action的范圍為[-1, 1],因此BC項(xiàng)最大值為4,所以在Q前要通過λ加權(quán)。

此參數(shù)易于理解

需要注意的是,在實(shí)踐中,此處分母上的均值是針對(duì)mini-batches的范圍,而不是整個(gè)數(shù)據(jù)集。α?為參數(shù),取值為2.5,則Q項(xiàng)的范圍為[-2.5,? 2.5]。

實(shí)驗(yàn)結(jié)果

本文在D4RL上進(jìn)行了實(shí)驗(yàn),對(duì)比算法包括兩個(gè)SOTA:CQL,Fisher-BC以及BRAC,AWAC.

結(jié)果顯示整體表現(xiàn)與Fisher-BC相當(dāng),優(yōu)于CQL,BRAC,AWAC.

運(yùn)行速度完勝

消融實(shí)驗(yàn)如下,顯然BC項(xiàng)起到了至關(guān)重要的作用,歸一化影響較小。

α取2、3時(shí)效果明顯較好,文中取值為2.5,


值得一提的是

本文的方法極其簡單,只需要更改幾行代碼;

Rebuttal場(chǎng)面很有意思(B站不支持站外鏈接直接跳轉(zhuǎn)):

https://openreview.net/forum?id=Q32U7dzWXpc

https://zhuanlan.zhihu.com/p/450152373


……


【RL】A Minimalist Approach to Offline Reinforcement Learning的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
东海县| 清徐县| 镇远县| 南充市| 齐齐哈尔市| 嘉禾县| 旬阳县| 南汇区| 灵璧县| 延边| 望谟县| 武定县| 伊金霍洛旗| 杭锦旗| 凤城市| 桓台县| 奉新县| 克东县| 肃宁县| 旬阳县| 吴江市| 上饶县| 于都县| 珲春市| 娱乐| 昆明市| 宜城市| 青冈县| 奇台县| 维西| 文化| 德庆县| 平定县| 眉山市| 奉贤区| 正宁县| 莱西市| 内黄县| 板桥市| 新平| 韶关市|