国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【2023新書】不確定性決策與強化學(xué)習(xí):理論與算法,附251頁pdf

2023-08-25 16:13 作者:文逸君在學(xué)習(xí)  | 我要投稿


不確定性決策與強化學(xué)習(xí):理論與算法

這本書的目的是將不確定情況下的決策基礎(chǔ)結(jié)果集中在一處。特別的,目標(biāo)是對序列決策制定問題的算法和理論給出統(tǒng)一的描述,包括強化學(xué)習(xí)。從基礎(chǔ)的統(tǒng)計決策理論開始,我們進展到強化學(xué)習(xí)問題和各種解決方法。本書的最后聚焦于模型和近似算法的當(dāng)前藝術(shù)狀態(tài)。不確定性下的決策制定問題可以分解為兩部分。首先,我們?nèi)绾瘟私馐澜??這包括了關(guān)于我們最初對世界的不確定性建模的問題,以及從證據(jù)和我們的初始信仰中得出結(jié)論的問題。其次,考慮到可能改變我們結(jié)論的未來事件和觀察,我們當(dāng)前對世界的了解,我們應(yīng)該如何決定要做什么?通常,這將涉及創(chuàng)建覆蓋可能未來情況的長期計劃。也就是說,在不確定性下規(guī)劃時,我們還需要考慮在執(zhí)行我們的計劃時可能產(chǎn)生的未來知識。直觀地說,執(zhí)行涉及嘗試新事物的計劃應(yīng)該提供更多的信息,但很難判斷這些信息是否會有益。在已知能產(chǎn)生好結(jié)果的事物和試驗新事物之間的選擇被稱為探索–利用困境,它是學(xué)習(xí)和規(guī)劃互動的根源。這本書的第一部分,第1-4章,專注于非序列設(shè)置下的不確定性決策。這包括假設(shè)測試等場景,其中決策者必須根據(jù)可用證據(jù)選擇一個行動。大部分的發(fā)展都是通過貝葉斯推理和決策理論的視角給出的,其中決策者對真實情況有一個主觀信仰(以概率分布表示)。本書的第二部分,第5-8章,介紹了序列問題和馬爾可夫決策過程的形式主義。其余章節(jié)致力于強化學(xué)習(xí)問題,這是最通用的不確定性下的序列決策問題之一。最后,我們增加了一些理論和實踐練習(xí),希望能幫助讀者理解這些材料。

目錄1
目錄2


【2023新書】不確定性決策與強化學(xué)習(xí):理論與算法,附251頁pdf的評論 (共 條)

分享到微博請遵守國家法律
泗阳县| 镇江市| 溧水县| 镇坪县| 永泰县| 合肥市| 太湖县| 亳州市| 安新县| 中宁县| 武宁县| 滦南县| 苍山县| 磴口县| 紫阳县| 昔阳县| 芦山县| 同江市| 东乡族自治县| 平凉市| 莒南县| 信宜市| 洪洞县| 北海市| 涞水县| 宜阳县| 尖扎县| 大丰市| 南宁市| 科尔| 黄山市| 福清市| 勃利县| 张家界市| 页游| 莱西市| 措勤县| 板桥市| 正镶白旗| 来安县| 读书|