數(shù)據(jù)規(guī)約之PCA降維
????? PCA也叫主成分分析,是一種統(tǒng)計(jì)方法。通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。簡單理解,PCA就是去除不重要的特征,將多個特征轉(zhuǎn)換成幾個主成分,這些主成分是原始變量的線性組合,且彼此之間互不相關(guān),其能反映出原始數(shù)據(jù)的大部分信息,而且可以提升數(shù)據(jù)處理的速度。
????PCA的核心思想是降維,這個過程中可能會損失精度,但是能換取更高的計(jì)算速度。
我們用sklearn的已有方法來舉例:
????sklearn中為我們已經(jīng)封裝好了對應(yīng)的PCA接口,下面我們使用PCA對sklearn中自帶的一個手寫數(shù)字?jǐn)?shù)據(jù)集進(jìn)行降維。
1、載入數(shù)據(jù)集

2、數(shù)據(jù)分割,劃分訓(xùn)練集和測試集,現(xiàn)在數(shù)據(jù)有64個特征值

3、在不進(jìn)行降維的情況下,運(yùn)行KNN模型,查看準(zhǔn)確率為0.98

4、進(jìn)行PCA降維,我們保留95%的特征,PCA降維后還有28個特征

5、運(yùn)行KNN模型,查看準(zhǔn)確率基本一致,還是0.98

PCA降維后,準(zhǔn)確度基本沒變化還是0.98,但是特征維度卻從之前的64維降到28維。
標(biāo)簽: