国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

在真實(shí)機(jī)器人硬件上進(jìn)行離線強(qiáng)化學(xué)習(xí)的Benchmark

2023-11-07 13:15 作者:計(jì)算機(jī)視覺(jué)life  | 我要投稿

#論文##開(kāi)源# ICLR 2023|馬克斯-普朗克智能系統(tǒng)研究所(圖賓根)與哈佛大學(xué)和瑞典皇家理工學(xué)院發(fā)布在真實(shí)機(jī)器人硬件上進(jìn)行離線強(qiáng)化學(xué)習(xí)的Benchmark 【Benchmarking Offline Reinforcement Learning on Real-Robot Hardware】 數(shù)據(jù)集地址:GitHub - rr-learning/trifinger_rl_datasets: A pyth... 項(xiàng)目地址:?https://sites.google.com/view/benchmarking-offline... 文章鏈接:[2307.15690] Benchmarking Offline Reinforcement Le... 從以前記錄的數(shù)據(jù)中學(xué)習(xí)策略是實(shí)現(xiàn)真實(shí)世界機(jī)器人任務(wù)的一個(gè)有希望的方向,因?yàn)樵诰€學(xué)習(xí)通常是不可行的。特別是靈巧的操作在其一般形式下仍然是一個(gè)尚未解決的問(wèn)題。然而,將離線強(qiáng)化學(xué)習(xí)與大規(guī)模多樣化的數(shù)據(jù)集相結(jié)合,有潛力在這一具有挑戰(zhàn)性的領(lǐng)域取得突破,類似于近年來(lái)在監(jiān)督學(xué)習(xí)中取得的快速進(jìn)展。 為了協(xié)調(diào)研究者們的努力來(lái)解決這個(gè)問(wèn)題,我們提出了一個(gè)基準(zhǔn),其中包括:i)一個(gè)來(lái)自靈巧操作平臺(tái)的大量離線學(xué)習(xí)數(shù)據(jù),涵蓋兩個(gè)任務(wù),數(shù)據(jù)是由在仿真中訓(xùn)練的能力強(qiáng)化學(xué)習(xí)代理獲得的;ii)在真實(shí)世界機(jī)器人系統(tǒng)和仿真環(huán)境上執(zhí)行學(xué)習(xí)策略的選項(xiàng),以進(jìn)行高效調(diào)試。我們?cè)谶@些數(shù)據(jù)集上評(píng)估了知名的開(kāi)源離線強(qiáng)化學(xué)習(xí)算法,并為在真實(shí)系統(tǒng)上進(jìn)行離線強(qiáng)化學(xué)習(xí)提供了可復(fù)現(xiàn)的實(shí)驗(yàn)設(shè)置。

在真實(shí)機(jī)器人硬件上進(jìn)行離線強(qiáng)化學(xué)習(xí)的Benchmark的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
耿马| 成武县| 甘谷县| 宜丰县| 保靖县| 光泽县| 曲沃县| 灵武市| 新津县| 荥阳市| 陕西省| 茂名市| 长宁区| 隆子县| 九江县| 五家渠市| 蒲江县| 漾濞| 夏津县| 屏边| 津南区| 确山县| 保亭| 周宁县| 武威市| 图木舒克市| 弋阳县| 定结县| 那曲县| 稷山县| 桓台县| 长宁县| 新竹县| 梁山县| 库车县| 奉贤区| 新乐市| 宁安市| 兴安盟| 渝中区| 甘洛县|