国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

北大公開(kāi)課-人工智能基礎(chǔ) 34 對(duì)抗性搜索之蒙特卡洛方法

2023-03-31 18:55 作者:朝朝暮暮1895  | 我要投稿


棋類游戲,博弈——對(duì)抗性搜索

兩個(gè)玩家的每一步,都可以組合成一個(gè)決策樹(shù)

alphago的相關(guān)算法基礎(chǔ)

蒙特卡洛方法

價(jià)值網(wǎng)絡(luò),用價(jià)值、每一步的效用函數(shù),判斷當(dāng)前action的有效性

蒙特卡洛方法:

定義一個(gè)輸入域(Xi 變量的集合)

隨機(jī)從輸入,分布輸出

對(duì)輸入進(jìn)行計(jì)算

聚合輸出結(jié)果,評(píng)估輸出的概率范圍

蒙特卡洛方法與決策樹(shù)集合

本質(zhì)上還是一顆決策樹(shù),但是每一個(gè)節(jié)點(diǎn)的后續(xù)action,通過(guò)蒙特卡洛方法來(lái)估算后續(xù)節(jié)點(diǎn)的概率

用蒙特卡洛方法,解決井字棋問(wèn)題

alphago 的CNN訓(xùn)練

alphago的兩個(gè)CNN結(jié)構(gòu)

一個(gè)是策略網(wǎng)絡(luò),通過(guò)蒙特卡洛方法及決策樹(shù)

判斷每個(gè)action的概率分布


第二個(gè)是價(jià)值網(wǎng)絡(luò)

判斷每一個(gè)決策節(jié)點(diǎn)action

得到的價(jià)值期望,來(lái)判斷每個(gè)action的最大價(jià)值化



北大公開(kāi)課-人工智能基礎(chǔ) 34 對(duì)抗性搜索之蒙特卡洛方法的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
衡东县| 安仁县| 定陶县| 扎鲁特旗| 大港区| 江城| 蓝田县| 西昌市| 吉首市| 永新县| 灯塔市| 曲松县| 乳山市| 壶关县| 筠连县| 兴国县| 科尔| 三原县| 大埔县| 无锡市| 宽城| 枣庄市| 北京市| 保康县| 嵊泗县| 长武县| 浪卡子县| 密山市| 陆丰市| 桃园县| 马鞍山市| 洛扎县| 富顺县| 河津市| 新余市| 盐源县| 陵水| 河曲县| 天长市| 涟源市| 义乌市|