国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

機器學(xué)習(xí)——模型評估與選擇

2022-10-27 21:21 作者:Vector永遠的神  | 我要投稿

????首先是說一個基本的概念 NFL No Free Lunch Theorem 沒有免費的午餐,無論怎樣的學(xué)習(xí)算法,它們的誤差期望都是相同的,在全體問題上所有的算法所表現(xiàn)出來的性能期望是一樣的。但是針對我們具體研究的問題是存在差異性的,要限定研究范圍,具體問題具體分析。

????模型的實際輸出與真實樣本之間的差異稱為誤差,在訓(xùn)練集上的表現(xiàn)稱為經(jīng)驗誤差,在新樣本上的差異稱為泛化誤差。模型改進的方向就是努力降低經(jīng)驗誤差,可以通過測試集的方法來檢驗?zāi)M泛化誤差。如果對于訓(xùn)練集樣本的學(xué)習(xí)能力過于強大,則會出現(xiàn)過擬合現(xiàn)象,指的是把訓(xùn)練樣本的特性當作一般規(guī)律去看待,導(dǎo)致模型的泛化能力減弱。欠擬合就是在訓(xùn)練集上訓(xùn)練不到位,一般的共同特征都尚未發(fā)現(xiàn)學(xué)習(xí)。

????測試集的選擇方式有很多,但是由于NFL的規(guī)律限制,一般是采用留出法進行,使用訓(xùn)練集上的誤差來作為泛化誤差的近似,就需要保證訓(xùn)練的數(shù)據(jù)集與測試的數(shù)據(jù)集相關(guān),但不能大量重復(fù)出現(xiàn),也就類似于獨立同分布中進行采集得到,強化模型的“舉一反三”的能力。

????一般的方式是針對不同的真實結(jié)果,采用分層抽樣的原則從初始數(shù)據(jù)集中抽取少量樣本用做測試,使用同樣的方法抽取剩下的樣本用作訓(xùn)練集。

? ? 性能度量來評判模型的泛化能力,回歸任務(wù)一般就是使用方差來作為度量指標,離散型和連續(xù)性。

????錯誤率和精度就是相加等于一,為了補充則添加了查準率和查全率的定義概念,在二元正反分類問題中,查準率指的是在預(yù)測正例中,真實正例地比率,查全率指的是在真實正例中,預(yù)測正例所占的比率。

????一般情況下,二者是相互矛盾的,這是由于模型在分類篩選過程中地尺度問題所決定的,尺度寬松則查全率高而查準率低。

????用這兩個定義分別作為橫軸和縱軸畫出P-R圖,如果說A模型的曲線可以完全包住B模型的曲線,則可以認為A模型的性能優(yōu)于B模型。

????關(guān)于這個兩個模型的比較優(yōu)劣的方法,有很多數(shù)學(xué)公式,可以進一步地去看,我不太會概率統(tǒng)計,如果以后用到就直接比較測試集準確率和計算時間了。

????歡迎大家三連催更。

機器學(xué)習(xí)——模型評估與選擇的評論 (共 條)

分享到微博請遵守國家法律
新建县| 蓝山县| 右玉县| 桂阳县| 洪雅县| 万盛区| 溧阳市| 安岳县| 昌图县| 砚山县| 嫩江县| 固始县| 深泽县| 柳州市| 清流县| 肥西县| 武陟县| 新乡市| 济阳县| 浠水县| 大竹县| 沭阳县| 江川县| 溆浦县| 永靖县| 梅州市| 双桥区| 眉山市| 宁晋县| 木里| 子洲县| 芒康县| 青神县| 长武县| 南溪县| 新龙县| 五莲县| 农安县| 西城区| 精河县| 宜宾县|