散文網(wǎng) » 科技 »學(xué)習(xí) » 在真實(shí)機(jī)器人硬件上進(jìn)行離線強(qiáng)化學(xué)習(xí)的Benchmark

在真實(shí)機(jī)器人硬件上進(jìn)行離線強(qiáng)化學(xué)習(xí)的Benchmark

2023-11-07 13:15 作者:計(jì)算機(jī)視覺(jué)life 0人讀過(guò) | 我要投稿

#論文##開(kāi)源# ICLR 2023｜馬克斯-普朗克智能系統(tǒng)研究所（圖賓根）與哈佛大學(xué)和瑞典皇家理工學(xué)院發(fā)布在真實(shí)機(jī)器人硬件上進(jìn)行離線強(qiáng)化學(xué)習(xí)的Benchmark 【Benchmarking Offline Reinforcement Learning on Real-Robot Hardware】數(shù)據(jù)集地址：GitHub - rr-learning/trifinger_rl_datasets: A pyth... 項(xiàng)目地址：?https://sites.google.com/view/benchmarking-offline... 文章鏈接：[2307.15690] Benchmarking Offline Reinforcement Le... 從以前記錄的數(shù)據(jù)中學(xué)習(xí)策略是實(shí)現(xiàn)真實(shí)世界機(jī)器人任務(wù)的一個(gè)有希望的方向，因?yàn)樵诰€學(xué)習(xí)通常是不可行的。特別是靈巧的操作在其一般形式下仍然是一個(gè)尚未解決的問(wèn)題。然而，將離線強(qiáng)化學(xué)習(xí)與大規(guī)模多樣化的數(shù)據(jù)集相結(jié)合，有潛力在這一具有挑戰(zhàn)性的領(lǐng)域取得突破，類似于近年來(lái)在監(jiān)督學(xué)習(xí)中取得的快速進(jìn)展。為了協(xié)調(diào)研究者們的努力來(lái)解決這個(gè)問(wèn)題，我們提出了一個(gè)基準(zhǔn)，其中包括：i）一個(gè)來(lái)自靈巧操作平臺(tái)的大量離線學(xué)習(xí)數(shù)據(jù)，涵蓋兩個(gè)任務(wù)，數(shù)據(jù)是由在仿真中訓(xùn)練的能力強(qiáng)化學(xué)習(xí)代理獲得的；ii）在真實(shí)世界機(jī)器人系統(tǒng)和仿真環(huán)境上執(zhí)行學(xué)習(xí)策略的選項(xiàng)，以進(jìn)行高效調(diào)試。我們?cè)谶@些數(shù)據(jù)集上評(píng)估了知名的開(kāi)源離線強(qiáng)化學(xué)習(xí)算法，并為在真實(shí)系統(tǒng)上進(jìn)行離線強(qiáng)化學(xué)習(xí)提供了可復(fù)現(xiàn)的實(shí)驗(yàn)設(shè)置。