国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【PPO × Family】第七課:挖掘黑科技 —— 探秘調(diào)優(yōu) PPO 的...

2023-06-07 14:15 作者:臉紅不及向日葵  | 我要投稿

不知不覺跟到第七節(jié)課了!老規(guī)矩,依舊是將老師提到的一些鏈接整理了出來?????♀?

?
12:34
?

有關(guān)于 GAE 完整的計算代碼示例以及其他計算 Advantage Function 的方法和 GAE 的對比,可以參考:

GAE代碼示例: https://opendilab.github.io/PPOxFamily/gae_zh.htm1

Advantage計算補充材料: https://github.com/opendilab/PPOxFamily/blob/main/chapter7_tricks/chapter7_supp_adv.pdf

?
13:57
?

關(guān)于 off-policy 和 PPO 相關(guān)的一些細節(jié),可以參考:

https://github.com/opendilab/PPOxFamily/blob/main/chapter7_tricks/chapter7_supp_offpolicy.pdf

?
16:01
?

Recompute 以及各種不同的 Shuffle 和相應的數(shù)據(jù)處理策略的對比參考這篇論文:

What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study: https://arxiv.org/pdf/2006.05990.pdf

?
20:01
?

Entropy 補充材料請參考:

https://github.com/opendilab/PPOxFamily/bleob/main/chapter7_tricks/chapter7_supp_entropy.pdf

?
25:46
?

Grad Clip 代碼示例參考:

https://opendilab.github.io/PPOxFamily/grad_clipzh.html

?
30:30
?

正交初始化代碼示例:

https://opendilab.github.io/PPOxFamily/onthogonal_init_zh.html

?
33:24
?

Dual Clip 代碼示例:

https://opendilab.github.io/PPOxFamily/dual_clip_zh.htnh

?
39:17
?

智能體性能的評價維度請參考以下論文:

?MEASURING THE RELIABILITY OF REINFORCEMENT LEARNING ALGORITHMS: https://openreview.net/pdf?id=SJlpYJBKvH

?
40:26
?

終于要講 LLM 了!小小期待一下!??

【PPO × Family】第七課:挖掘黑科技 —— 探秘調(diào)優(yōu) PPO 的...的評論 (共 條)

分享到微博請遵守國家法律
奇台县| 通许县| 江源县| 饶阳县| 吉首市| 梅河口市| 景洪市| 青铜峡市| 轮台县| 勐海县| 淮南市| 新民市| 清苑县| 吐鲁番市| 澄江县| 汉寿县| 横峰县| 晋州市| 改则县| 兴海县| 邯郸市| 宝鸡市| 长寿区| 蕉岭县| 田阳县| 新和县| 格尔木市| 钦州市| 鄂伦春自治旗| 德江县| 长葛市| 小金县| 伊宁县| 德令哈市| 海伦市| 类乌齐县| 辰溪县| 鄱阳县| 临颍县| 正蓝旗| 新巴尔虎右旗|