在真實(shí)機(jī)器人硬件上進(jìn)行離線強(qiáng)化學(xué)習(xí)的Benchmark
#論文##開(kāi)源# ICLR 2023|馬克斯-普朗克智能系統(tǒng)研究所(圖賓根)與哈佛大學(xué)和瑞典皇家理工學(xué)院發(fā)布在真實(shí)機(jī)器人硬件上進(jìn)行離線強(qiáng)化學(xué)習(xí)的Benchmark 【Benchmarking Offline Reinforcement Learning on Real-Robot Hardware】 數(shù)據(jù)集地址:GitHub - rr-learning/trifinger_rl_datasets: A pyth... 項(xiàng)目地址:?https://sites.google.com/view/benchmarking-offline... 文章鏈接:[2307.15690] Benchmarking Offline Reinforcement Le... 從以前記錄的數(shù)據(jù)中學(xué)習(xí)策略是實(shí)現(xiàn)真實(shí)世界機(jī)器人任務(wù)的一個(gè)有希望的方向,因?yàn)樵诰€學(xué)習(xí)通常是不可行的。特別是靈巧的操作在其一般形式下仍然是一個(gè)尚未解決的問(wèn)題。然而,將離線強(qiáng)化學(xué)習(xí)與大規(guī)模多樣化的數(shù)據(jù)集相結(jié)合,有潛力在這一具有挑戰(zhàn)性的領(lǐng)域取得突破,類似于近年來(lái)在監(jiān)督學(xué)習(xí)中取得的快速進(jìn)展。 為了協(xié)調(diào)研究者們的努力來(lái)解決這個(gè)問(wèn)題,我們提出了一個(gè)基準(zhǔn),其中包括:i)一個(gè)來(lái)自靈巧操作平臺(tái)的大量離線學(xué)習(xí)數(shù)據(jù),涵蓋兩個(gè)任務(wù),數(shù)據(jù)是由在仿真中訓(xùn)練的能力強(qiáng)化學(xué)習(xí)代理獲得的;ii)在真實(shí)世界機(jī)器人系統(tǒng)和仿真環(huán)境上執(zhí)行學(xué)習(xí)策略的選項(xiàng),以進(jìn)行高效調(diào)試。我們?cè)谶@些數(shù)據(jù)集上評(píng)估了知名的開(kāi)源離線強(qiáng)化學(xué)習(xí)算法,并為在真實(shí)系統(tǒng)上進(jìn)行離線強(qiáng)化學(xué)習(xí)提供了可復(fù)現(xiàn)的實(shí)驗(yàn)設(shè)置。