国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

R語言改進(jìn)的K-Means(K-均值)聚類算法分析股票盈利能力和可視化

2023-05-16 23:18 作者:拓端tecdat  | 我要投稿

全文鏈接:http://tecdat.cn/?p=32418

原文出處:拓端數(shù)據(jù)部落公眾號

大量數(shù)據(jù)中具有"相似"特征的數(shù)據(jù)點或樣本劃分為一個類別。聚類分析提供了樣本集在非監(jiān)督模式下的類別劃分。

人們在投資時總期望以最小的風(fēng)險獲取最大的利益,面對龐大的股票市場和繁雜的股票數(shù)據(jù),要想對股票進(jìn)行合理的分析和選擇,聚類分析就顯得尤為重要。

在本文中,我們采用了改進(jìn)K-means聚類法幫助客戶對隨機選擇的個股進(jìn)行了聚類,并對各類股票進(jìn)行了分析,給出了相應(yīng)的投資建議。

讀取數(shù)據(jù)

股票盈利能力分析數(shù)據(jù)

data=read.xlsx("股票盈利能力分析.xlsx")

初始聚類中心個數(shù)

初始聚類中心數(shù)目k的選取是一個較為困難的問題。傳統(tǒng)的K-means聚類算法需要用戶事先給定聚類數(shù)目k,但是用戶一般情況下并不知道取什么樣的k值對自己最有利、或者說什么樣的k值對實際應(yīng)用才是最合理的,這種情況下給出k值雖然對聚類本身會比較快速、高效,但是對于一些實際問題來說聚類效果卻是不佳的。所以,下面我提出一種確定最佳聚類個數(shù)k的方法。

算法描述與步驟:

輸入:包含n個對象的數(shù)據(jù)集;

輸出:使得取值最小的對應(yīng)的k值。

(1)根據(jù)初步確定簇類個數(shù)k的范圍;

(2)仍然是用K-means算法對的每一個k值分別進(jìn)行聚類;

(3)分別計算不同聚類個數(shù)k所對應(yīng)的的值;

(4)找出最小的值,記下對應(yīng)的k值,算法結(jié)束。

S[1]=sum(abs(data[,3:9]-result$centers)^2)/min(abs(data[,3:9]-result$ce plot(2:6,S,type="b")

初始中心位置的選取

傳統(tǒng)的K-means聚類算法中,我們總是希望能將孤立點對聚類效果的影響最小化,但是孤立點實際上在詐騙探測、安全性檢測以及設(shè)備故障分析等方面起著不凡的作用;然而,本文排除以上這些因素,單純地考慮聚類效果好壞。那么為了避免將孤立點誤選為初始中心,我們選擇高密度數(shù)據(jù)集合區(qū)域D中的數(shù)據(jù)作為聚類初始中心。

基本思想:

傳統(tǒng)K-means聚類采用隨機選擇初始中心的方法一旦選到孤立點,會對聚類結(jié)果產(chǎn)生很大的影響,所以我們將初始中心的選擇范圍放在高密度區(qū)。首先在高密度區(qū)選擇相距最遠(yuǎn)的兩個樣本點作為聚類的初始中心點,再找出與這兩個點的距離之和最大的點作為第3個初始中心,有了第3個初始中心,同樣找到與已有的三個初始聚類中心距離和最遠(yuǎn)的點作為第4個初始中心,以此類推,直到在高密度區(qū)將k個聚類中心都找出來為止。

算法描述與步驟:

輸入:包含n個對象的數(shù)據(jù)集,簇類數(shù)目k;

輸出:k個初始聚類中心。

(1)計算n個數(shù)據(jù)樣本中每個對象x的的密度,當(dāng)滿足核心對象的條件時,將該對象加到高密度區(qū)域D中去;

(2)在區(qū)域D中計算兩兩數(shù)據(jù)樣本間的距離,找到間距最大的兩個樣本點作為初始聚類中心,記為;

(3)再從區(qū)域D中找出滿足條件:的點,將作為第三個初始聚類中心;

(4)仍然從區(qū)域D中找出滿足到前面三個聚類中心的距離和最大的點;

(5)按照同樣的方法進(jìn)行下去,直到找到第k個初始聚類中心,結(jié)束。

#首先在高密度區(qū)選擇相距最遠(yuǎn)的兩個樣本點作為聚類的初始中心點,再找出與這兩個點的距離之和最大的點作為第3個初始中心, ? ?dd=dist(data) ?dd=as.matrix(dd) ?#高密度區(qū)域 ?D=which(dd<max(dd)/6 & dd!=0,arr.ind = T) ?D=unique(D[,1]) ?dataD=data[D,] ?index=0 ?for(i in 1:k){ ? ? ? ?index[i]=as.numeric(row.names(which (

相似性度量的改進(jìn)

在前面確定了k值以及k個初始聚類中心后,只要再確定相似性度量即可得到聚類結(jié)果。然而傳統(tǒng)的K-means聚類采用歐氏距離作為相似性度量,這種方法沒有很好地考慮到其實每個數(shù)據(jù)樣本對聚類結(jié)果的影響可能是不同的,一律采用歐氏距離進(jìn)行相似性衡量對聚類結(jié)果會產(chǎn)生較大影響。那么,我們?nèi)绻鶕?jù)數(shù)據(jù)樣本的重要性對其賦予一個權(quán)值,就會減小孤立點等一些因素對聚類的影響,這種改進(jìn)的度量方法我們稱之為加權(quán)歐氏距離。

###根據(jù)改進(jìn)后的加權(quán)歐氏距離公式 ?## ? 檢驗聚類操作是否需要結(jié)束,改進(jìn)后的加權(quán)準(zhǔn)則函數(shù)公式:的值最小或保持不變了 ?sqrt(sum((c1$Centers/(sum(c1$Centers)/len

繪制聚類中心和可視化

lot(data[,-c(1:4)], fit$cluste

輸出聚類結(jié)果和聚類中心

###########################聚類類別###############fit$Clusters###########################聚類中心#########################fit$Centers


最受歡迎的見解

1.R語言k-Shape算法股票價格時間序列聚類

2.R語言基于溫度對城市層次聚類、kmean聚類、主成分分析和Voronoi圖

3.R語言對用電負(fù)荷時間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸

4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類

5.Python Monte Carlo K-Means聚類實戰(zhàn)

6.用R進(jìn)行網(wǎng)站評論文本挖掘聚類

7.R語言KMEANS均值聚類和層次聚類:亞洲國家地區(qū)生活幸福質(zhì)量異同可視化

8.PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機森林、決策樹、支持向量機、樸素貝葉斯模型和KMEANS聚類用戶畫像

9.R語言基于Keras的小數(shù)據(jù)集深度學(xué)習(xí)圖像分類


R語言改進(jìn)的K-Means(K-均值)聚類算法分析股票盈利能力和可視化的評論 (共 條)

分享到微博請遵守國家法律
儋州市| 开化县| 池州市| 嘉峪关市| 德兴市| 台中市| 孟津县| 嘉峪关市| 都兰县| 七台河市| 祁东县| 亚东县| 夏邑县| 达州市| 秦安县| 禄劝| 陈巴尔虎旗| 慈溪市| 松潘县| 从江县| 无极县| 昌黎县| 吉安市| 合作市| 辽阳县| 广汉市| 天柱县| 包头市| 同江市| 长兴县| 长治市| 宁安市| 勐海县| 荔浦县| 上思县| 阿勒泰市| 江源县| 句容市| 讷河市| 武清区| 唐山市|