質(zhì)量工具之散點(diǎn)圖
1. 什么是散點(diǎn)圖
散點(diǎn)圖(Scatter Plot or Scatter Chart),也叫散布圖,顧名思義就是由一些散亂的點(diǎn)組成的圖表,這些點(diǎn)在哪個(gè)位置,是由其X值和Y值確定的。所以也叫做XY散點(diǎn)圖。它將所有的數(shù)據(jù)以點(diǎn)的形式展現(xiàn)在直角坐標(biāo)系上,以顯示變量之間的相互影響程度,點(diǎn)的位置由變量的數(shù)值決定。
在分析獨(dú)立數(shù)據(jù)時(shí),用直方圖、柏拉圖就可以直接找到改善著眼點(diǎn),但是要解析兩個(gè)變量X、Y之間的相關(guān)性時(shí),就要用到散點(diǎn)圖。如鋼的淬火溫度和硬度,螺絲的扭矩和抗張強(qiáng)度,油的溫度與粘度,玻璃中含鉛量與抗輻射等。
人們經(jīng)常用散點(diǎn)圖來表述兩個(gè)連續(xù)變量X和Y之間的關(guān)系,圖中的每個(gè)點(diǎn)表示目標(biāo)數(shù)據(jù)集中的每個(gè)樣本,在直角坐標(biāo)系平面上數(shù)據(jù)點(diǎn)的分布和因變量隨自變量而變化的大致趨勢。由此趨勢可以選擇合適的函數(shù)進(jìn)行經(jīng)驗(yàn)分布的擬合,同時(shí)散點(diǎn)圖中常常還會(huì)擬合一些直線和曲線,以用來表示某些模型,進(jìn)而找到變量之間的函數(shù)關(guān)系。
?

2.?散點(diǎn)圖的作用
散點(diǎn)圖將序列顯示為一組點(diǎn),值由點(diǎn)在圖表中的位置表示,類別由圖表中的不同標(biāo)記表示。散點(diǎn)圖通常用于比較跨類別的聚合數(shù)據(jù),其應(yīng)用有很多,總結(jié)兩個(gè)常見的應(yīng)用如下。
2.1 回歸分析
散點(diǎn)圖用于回歸分析中,數(shù)據(jù)點(diǎn)在直角坐標(biāo)系平面上的分布圖,散點(diǎn)圖表示因變量隨自變量而變化的大致趨勢,據(jù)此可以選擇合適的函數(shù)對(duì)數(shù)據(jù)點(diǎn)進(jìn)行擬合。
散點(diǎn)圖經(jīng)過回歸分析之后,可以對(duì)相關(guān)對(duì)象進(jìn)行預(yù)測分析,能讓我們發(fā)現(xiàn)變量之間隱藏的關(guān)系,進(jìn)而做出科學(xué)的決策,而不是模棱兩可。比如,下面房價(jià)的散點(diǎn)圖可以為我們直觀呈現(xiàn)不同城市的房價(jià)上漲情況,為后續(xù)的房價(jià)政策調(diào)整做出重要的支持。
?

2.2 相關(guān)性分析
散點(diǎn)圖用于相關(guān)性分析中,用兩組數(shù)據(jù)構(gòu)成多個(gè)坐標(biāo)點(diǎn),考察坐標(biāo)點(diǎn)的分布,判斷兩變量之間是否存在某種關(guān)聯(lián)或總結(jié)坐標(biāo)點(diǎn)的分布模式。
通過觀察散點(diǎn)圖上數(shù)據(jù)點(diǎn)的分布情況,我們可以推斷出變量間的相關(guān)性。如果變量之間不存在相互關(guān)系,那么在散點(diǎn)圖上就會(huì)表現(xiàn)為隨機(jī)分布的離散的點(diǎn),如果存在某種相關(guān)性,那么大部分的數(shù)據(jù)點(diǎn)就會(huì)相對(duì)密集并以某種趨勢呈現(xiàn)。
散點(diǎn)圖核心的價(jià)值在于發(fā)現(xiàn)變量之間的關(guān)系,千萬不要簡單地將這個(gè)關(guān)系理解為線性回歸關(guān)系。變量間的關(guān)系有很多,如線性關(guān)系、指數(shù)關(guān)系、對(duì)數(shù)關(guān)系等等,當(dāng)然,沒有關(guān)系也是一種重要的關(guān)系。
?

數(shù)據(jù)的相關(guān)關(guān)系主要分為:正相關(guān)(兩個(gè)變量值同時(shí)增長)、負(fù)相關(guān)(一個(gè)變量值增加另一個(gè)變量值下降)、不相關(guān)、線性相關(guān)、指數(shù)相關(guān)等,表現(xiàn)在散點(diǎn)圖上的大致分布如下圖所示。那些離點(diǎn)集群較遠(yuǎn)的點(diǎn)我們稱為離群點(diǎn)或者異常點(diǎn)。
?

從PDCA的角度,散點(diǎn)圖的應(yīng)用總結(jié)如下:

?
3.?散點(diǎn)圖的變形
基于應(yīng)用場景不同,散點(diǎn)圖有很多變形,下面列出了幾種常見變形。
3.1散點(diǎn)圖矩陣
當(dāng)欲同時(shí)考察多個(gè)變量間的相關(guān)關(guān)系時(shí),若一一繪制它們間的簡單散點(diǎn)圖,十分麻煩。此時(shí)可利用散點(diǎn)圖矩陣來同時(shí)繪制各自變量間的散點(diǎn)圖,這樣可以快速發(fā)現(xiàn)多個(gè)變量間的主要相關(guān)性,這一點(diǎn)在進(jìn)行多元線性回歸時(shí)顯得尤為重要。 下面的散點(diǎn)圖矩陣展示球隊(duì)總積分、勝、傳球成功率和射門的關(guān)系。
?

3.2三維散點(diǎn)圖
在散點(diǎn)圖矩陣中雖然可以同時(shí)觀察多個(gè)變量間的聯(lián)系,但是兩兩進(jìn)行平面散點(diǎn)圖的觀察的,有可能漏掉一些重要的信息。三維散點(diǎn)圖就是在由3個(gè)變量確定的三維空間中研究變量之間的關(guān)系,由于同時(shí)考慮了3個(gè)變量,常常可以發(fā)現(xiàn)在兩維圖形中發(fā)現(xiàn)不了的信息。下面的三維散點(diǎn)圖展示球隊(duì)總積分、勝、和射正的關(guān)系。
?

3.3氣泡圖
氣泡圖(bubble chart)是可用于展示三個(gè)變量之間的關(guān)系。排列在工作表的列中的數(shù)據(jù)(第一列中列出 x 值,在相鄰列中列出相應(yīng)的 y 值和氣泡大小的值)可以繪制在氣泡圖中。
氣泡圖與散點(diǎn)圖相似,不同之處在于,氣泡圖允許在圖表中額外加入一個(gè)表示大小的變量。實(shí)際上,這就像以二維方式繪制包含三個(gè)變量的圖表一樣。氣泡由大小不同的標(biāo)記(指示相對(duì)重要程度)表示。
?

4.?散點(diǎn)圖的應(yīng)用
應(yīng)用散點(diǎn)圖的好處多多,總結(jié)出常用的幾點(diǎn)如下:
可發(fā)現(xiàn)原因與結(jié)果的關(guān)系:收集原因的數(shù)據(jù)與結(jié)果的數(shù)據(jù),相對(duì)比較。
繪出散點(diǎn)圖,對(duì)結(jié)果一目了然:在散點(diǎn)圖內(nèi),將原因和結(jié)果的數(shù)據(jù)點(diǎn)以X、Y坐標(biāo)表示。
可判斷是有關(guān)聯(lián)或是沒有關(guān)聯(lián):由散點(diǎn)圖可以清楚了解兩組數(shù)據(jù)間的關(guān)系。
注意:如果收集到的數(shù)據(jù)在圖上無法判定,則應(yīng)先與層別,再行點(diǎn)入繪成散布圖。
下表所列數(shù)據(jù)為收集的某鋼件的淬火溫度X與硬度Y記錄表。兩個(gè)變量淬火溫度X和硬度Y之間是否有相關(guān)性?
?

如果只看上面表格中的數(shù)據(jù),能看出上面的數(shù)據(jù)有什么特征嗎?肯定不能,但是我們將其繪制成散點(diǎn)圖,其數(shù)據(jù)明顯具有一定的趨勢。
?

如果我們給其添加趨勢線就更明顯了。
?

?