拓端tecdat|R語言基于溫度對城市層次聚類、kmean聚類、主成分分析和Voronoi圖可視化
原文鏈接:http://tecdat.cn/?p=20960
原文出處:拓端數(shù)據(jù)部落公眾號
為了說明層次聚類技術(shù)和k-均值,我使用了了城市溫度數(shù)據(jù)集,其中包括幾個城市的月平均氣溫。
我們有15個城市,每月進(jìn)行一次觀測
boxplot(temp[,1:12],main="月平均溫度")

由于方差看起來相當(dāng)穩(wěn)定,我們不會將這里的變量“標(biāo)準(zhǔn)化”,
> apply(月份,2,sd)

為了得到一個層次聚類分析,使用實(shí)例
hclust(dist , method = "ward")

另一種選擇是使用
> plot(h2)


在這里,我們用主成分分析將觀察結(jié)果可視化。我們這里還有一個自動選擇類的數(shù)目,這里是3個。我們可以得到組的描述
或直接
cutree(cah,3)
我們也可以自己可視化這些類,
PCA(X,scale.unit=FALSE)
plot( ?ind$coord[,1:2],col="white")
text( ind$coord[,1],acp$ind$coord[,2],
可以繪制出這些簇的中心點(diǎn)
> points(PT$Dim.1,PT$Dim.2,pch=19)
如果我們在這些中心周圍添加Voronoi集,我們看到的是中間的點(diǎn),恰好是三個區(qū)域的交點(diǎn)
vormo(PT$Dim.1,PT$Dim.2)
plot(V,add=TRUE)

要可視化這些區(qū)域,請使用Voronoi圖,它又叫泰森多邊形或Dirichlet圖,它是由一組由連接兩鄰點(diǎn)直線的垂直平分線組成的連續(xù)多邊形組成。
p=function(x,y){
+ ? which.min((PT$Dim.1-x)^2+(PT$Dim.2-y)^2)
image(vx,vy,z,col=c(rgb(1,0,0,.2),

實(shí)際上,這三組(和這三個區(qū)域)也是我們用k-均值算法得到的,
kmeans(coord[,1:2],3)
K-means clustering
with 3 clusters of sizes 3, 7, 5
由于我們有一些空間數(shù)據(jù),我們可以在地圖上把它們可視化
points(Long,Lati,col=groups.3)

或者,為了可視化這些區(qū)域,使用
for(i in 1:3)
+ Ellipse( Long[groups.3==i],


最受歡迎的見解
1.R語言k-Shape算法股票價格時間序列聚類
2.R語言中不同類型的聚類方法比較
3.R語言對用電負(fù)荷時間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸
4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類
5.Python Monte Carlo K-Means聚類實(shí)戰(zhàn)
6.用R進(jìn)行網(wǎng)站評論文本挖掘聚類
7.用于NLP的Python:使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)
8.R語言對MNIST數(shù)據(jù)集分析 探索手寫數(shù)字分類數(shù)據(jù)
9.R語言基于Keras的小數(shù)據(jù)集深度學(xué)習(xí)圖像分類