国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Q-Learn

2023-07-04 13:43 作者:老師明明可以靠顏值  | 我要投稿

參考:https://blog.csdn.net/weixin_44732379/article/details/127812712

1 使用

檢測到游戲畫面處于s1,就從a1,a2,a3種, 從這3個動作中,選一個Q值最大的動作。

選完動作后,輸入給游戲執(zhí)行。

游戲執(zhí)行后,游戲畫面會處于新的狀態(tài)。

在這個新的狀態(tài)下,從a1,a2,a3中,選一個Q值最大的動作?,我們稱這個動作為下一次動作的最大Q值。公式為:


2 訓(xùn)練

一開始設(shè)置Q-table為0,然后用一下公式更新Q-table? 中的Q值,直到Q-table中的值不再發(fā)生變化。

alpha 是學(xué)習(xí)率,可取0.3.

gama是前瞻率,可取0.4.

rt+1是游戲的獎勵分。

公式中的

就是下一次動作的最大Q值。

gama為什么是前瞻率,就是因為它乘的是 下一次動作的最大Q值,下一次。

3 總結(jié):

訓(xùn)練移動步數(shù)后,Q-table應(yīng)該會趨于不變,這便是收斂了。

如果沒有收斂,可調(diào)整學(xué)習(xí)率,前瞻率等。

還可以適當(dāng)?shù)脑黾右恍╇S機(jī)性,即并不是每次都取Q值最大的動作,而是以一定概率來隨機(jī)取動作,以讓Q-table得到更加豐富的更新。

在一開始的時候,這個概率可以大些,后面逐漸調(diào)小,直到為0.

Q-Learn的評論 (共 條)

分享到微博請遵守國家法律
汤阴县| 南溪县| 昌乐县| 阜宁县| 比如县| 云浮市| 瑞金市| 普兰店市| 河西区| 崇左市| 将乐县| 建平县| 灵宝市| 晴隆县| 玉屏| 马关县| 大悟县| 阿拉尔市| 犍为县| 光泽县| 乐亭县| 通山县| 巍山| 乾安县| 花莲市| 正宁县| 留坝县| 浦北县| 大城县| 九寨沟县| 东至县| 鄱阳县| 左云县| 顺平县| 崇礼县| 凉城县| 抚宁县| 陆河县| 镇江市| 开江县| 商河县|