国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

MATLAB數(shù)據(jù)挖掘用改進的K-Means(K-均值)聚類算法分析高校學(xué)生的期末考試成績數(shù)據(jù)

2022-12-13 16:50 作者:拓端tecdat  | 我要投稿

全文鏈接:http://tecdat.cn/?p=30832

原文出處:拓端數(shù)據(jù)部落公眾號

本文首先闡明了聚類算法的基本概念,介紹了幾種比較典型的聚類算法,然后重點闡述了K-均值算法的基本思想,對K-均值算法的優(yōu)缺點做了分析,回顧了對K-均值改進方法的文獻,最后在Matlab中應(yīng)用了改進的K-均值算法對數(shù)據(jù)進行了分析。

常用的聚類算法

常用的聚類算法有:K-MEANS、K-MEDOIDS、BIRCH、CURE、DBSCAN、STING。

主要聚類算法分類

類別包括的主要算法劃分的方法K-MEANS算法(K平均)、K-MEDOIDS算法(K中心點)、CLARANS算法(基于選擇的算法)層次的方法BIRCH算法(平衡迭代規(guī)約和聚類)、CURE算法(代表點聚類)、CHAMELEON算法(動態(tài)模型)基于密度的方法DBSCAN算法(基于高密度連接區(qū)域)、DENCLUE算法(密度分布函數(shù))、OPTICS算法(對象排序識別)基于網(wǎng)絡(luò)的方法STING算法(統(tǒng)計信息網(wǎng)絡(luò))、CLIQUE算法(聚類高維空間)、WAVE-CLUSTER算法(小波變換)基于模型的方法統(tǒng)計學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法

聚類算法的性能比較

聚類算法適合數(shù)據(jù)類型算法效率發(fā)現(xiàn)的聚類形狀能否處理大數(shù)據(jù)集是否受初始聚類中心影響對異常數(shù)據(jù)敏感性對輸入數(shù)據(jù)順序敏感性K-MEANS數(shù)值型較高凸形或球形能是非常敏感不敏感K-MEDOIDS數(shù)值型一般凸形或球形否否不敏感不敏感BIRCH數(shù)值型高凸形或球形能否不敏感不太敏感CURE數(shù)值型較高任意形狀能否不敏感不太敏感DBSCAN數(shù)值型一般任意形狀能是敏感敏感STING數(shù)值型高任意形狀能否一般不敏感

?

由表可得到以下結(jié)論:1)大部分常用聚類算法只適合處理數(shù)值型數(shù)據(jù);2)若考慮算法效率、初始聚類中心影響性和對異常數(shù)據(jù)敏感性,其中BIRCH算法、CURE算法以及STING算法能得到較好的結(jié)果;3)CURE算法、DBSCAN算法以及STING算法能發(fā)現(xiàn)任意形狀的聚類。

改進聚類的主要步驟

聚類的主要步驟由以下幾個方面組成:

(1)數(shù)據(jù)預(yù)處理:根據(jù)聚類分析的要求,對輸入數(shù)據(jù)集進行特征標(biāo)準(zhǔn)化及降維等操作。

(2)特征選擇及特征提取:將由數(shù)據(jù)預(yù)處理過程得到的最初始的特征中的最有效的特征選擇出來,并將選取出來的最有效特征存放于特定的向量中,然后對這些有效特征進行相應(yīng)的轉(zhuǎn)換,得到新的有效突出特征。

(3)聚類(分組):根據(jù)需要選擇合適的相似性度量函數(shù)對數(shù)據(jù)集中的數(shù)據(jù)對象相似程度進行度量,以此進行數(shù)據(jù)對象的聚類(分組)。

(4)對聚類結(jié)果進行評估:依據(jù)特定的評價標(biāo)準(zhǔn)對聚類的結(jié)果進行有效評估,評估聚類結(jié)果的優(yōu)劣,以此對聚類分析過程進行進一步的改進和完善。

聚類的主要步驟可以用圖來表示。

改進聚類分析中的數(shù)據(jù)類型及聚類準(zhǔn)則函數(shù)

聚類算法的數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)矩陣、相異度矩陣。

相異度矩陣:相異度矩陣用來存儲的是實體之間的差異性,n個實體的相異度矩陣表示為 n×n維的矩陣,用d(A,B)來表示實體A與實體B的相異性,一般來講,是一種量化的表示方式,則含有n個實體的集合X={x1,x2,…,xn}的相異度矩陣表示如下:

d(i,j)表示對象i和j之間的相異性的量化表示,通常它是一個非負的數(shù)值,當(dāng)對象i和j 越相似或接近,其值越接近0;兩個對象越不同,其值越大。并且有d(i,j)=d(j,i),d(i,i)=0。目前最常用的的相似性度量函數(shù)為歐式距離

在MATLAB中應(yīng)用K-MEANS算法

數(shù)據(jù)的預(yù)處理

本研究的數(shù)據(jù)是某高校學(xué)生的期末考試成績,成績表包括以下字段: x1為“電子商務(wù)”科目成績,x2為“C語言概論”科目基礎(chǔ)知識。其中,數(shù)據(jù)已經(jīng)經(jīng)過標(biāo)準(zhǔn)化和中心化的預(yù)處理:

(1)補充缺失值。對退學(xué)、轉(zhuǎn)學(xué)、休學(xué)、缺考造成的數(shù)據(jù)缺失采用平均值法,以該科目的平均分?jǐn)?shù)填充。

(2)規(guī)范化數(shù)據(jù)。運用最小-最大規(guī)范化方法對數(shù)據(jù)進行規(guī)范化處理,將數(shù)據(jù)映射到[0,1]區(qū)間,計算公式如下。

過程及結(jié)果分析

(1)讀取數(shù)據(jù)

選擇MATLAB的Data.mat,通過ImpoMatlabt Files,將所有數(shù)據(jù)讀入。

load('data1.mat')k = 6;figure;%數(shù)據(jù)標(biāo)準(zhǔn)化data = zeros(size(data1));[data(:,1) me(1) va(1)] = dataNormalization(data1(:,1));

(2)K-Means 模型設(shè)置

1)NumbeRs of clusteR:制定生成的聚類數(shù)目,這里設(shè)置為3.

2)定義了分割數(shù)據(jù)集,選擇訓(xùn)練數(shù)據(jù)集作為建模數(shù)據(jù)集,并利用測試數(shù)據(jù)集對模型進行評價。

[idx c] = kmeansOfMy(data,k);c = dataRecovery(c,me,va);%畫出各個區(qū)域中的散點count = 0;for i = 1 : k ? ?if i == 1 ? ? ? ? plot(data1(idx == i,1),data1(idx == 1,2),'r*'); ? ?elseif i == 2 ? ? ? ? plot(data1(idx == i,1),data1(idx == i,2),'g*'); ? ?elseif i == 3

(3)執(zhí)行和輸出

設(shè)置完成后,選中Execute 按鈕,即可得到改進聚類執(zhí)行并觀察到結(jié)果。

%kOfVertex = randKOfVertex(k);kOfVertex = electedInitialCentroid(k);for i = 1 : size(data,1) ? ? ? ?index(i) = minOfDistans(i,kOfVertex);

可以以圖表的形式來顯示模型的統(tǒng)計信息以及各個屬性在各簇中的分布信息,結(jié)果如下圖所示。

(4)聚類結(jié)果

結(jié)果表明:簇1中的學(xué)生都是考試成績中等的,簇2中的學(xué)生考試成績較高,簇2中的學(xué)生考試成績較差,可見,大部分學(xué)生的期末考試成績處于中等水平;各變量在各簇中的顯著程度均較大,表明學(xué)生對各科目的學(xué)習(xí)分化程度較高,差異顯著。

?

參考文獻

[1] 賀玲, 吳玲達, 蔡益朝. 數(shù)據(jù)挖掘中的聚類算法綜述[J]. 計算機應(yīng)用研究, 2007(1).

[2] 蔣帥. K-均值聚類算法研究[D]. 陜西師范大學(xué), 2010.

[3] 周涓, 熊忠陽, 張玉芳, 等. 基于最大最小距離法的多中心聚類算法[J]. 計算機應(yīng)用, 2006, 26(6).

[4] A.K.Jain, MATLAB.C.Dubes. AlgoMatlabithms foMatlab ClusteMatlabing Data [J]. PMatlabentice-Hall Advanced MATLABefeMatlabence SeMatlabies, 1988(1).

最受歡迎的見解

1.R語言k-Shape算法股票價格時間序列聚類

2.R語言基于溫度對城市層次聚類、kmean聚類、主成分分析和Voronoi圖

3.R語言對用電負荷時間序列數(shù)據(jù)進行K-medoids聚類建模和GAM回歸

4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類

5.Python Monte Carlo K-Means聚類實戰(zhàn)

6.用R進行網(wǎng)站評論文本挖掘聚類

7.R語言KMEANS均值聚類和層次聚類:亞洲國家地區(qū)生活幸福質(zhì)量異同可視化

8.PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機森林、決策樹、支持向量機、樸素貝葉斯模型和KMEANS聚類用戶畫像

9.R語言基于Keras的小數(shù)據(jù)集深度學(xué)習(xí)圖像分類


MATLAB數(shù)據(jù)挖掘用改進的K-Means(K-均值)聚類算法分析高校學(xué)生的期末考試成績數(shù)據(jù)的評論 (共 條)

分享到微博請遵守國家法律
昌吉市| 高雄市| 大洼县| 宜兴市| 喜德县| 长丰县| 新巴尔虎左旗| 福海县| 南木林县| 基隆市| 安阳市| 宝鸡市| 福泉市| 澄江县| 丘北县| 宣汉县| 鹤山市| 五莲县| 铜山县| 晋宁县| 邵阳县| 七台河市| 伊宁县| 三门县| 买车| 深州市| 平武县| 东平县| 宾阳县| 宣城市| 宜兰市| 咸丰县| 井陉县| 会同县| 行唐县| 依兰县| 慈利县| 安国市| 巢湖市| 德阳市| 万荣县|