統(tǒng)計學(xué)清單:8項數(shù)據(jù)分析師必學(xué)知識點?。ǜ劫浗y(tǒng)計學(xué)大禮包)
來? 源:簡書/作? 者:肖彬AI
數(shù)據(jù)分析師,無疑是數(shù)據(jù)時代最耀眼的職業(yè)之一,統(tǒng)計學(xué),又是數(shù)據(jù)分析師必備的基礎(chǔ)知識。今天,給大家列了一份數(shù)據(jù)分析師常用的統(tǒng)計學(xué)知識清單!
知識點匯總:
集中趨勢(Central Tendency)
變異性(Variability)?
歸一化(Standardizing)?
正態(tài)分布(Normal Distributions)
抽樣分布(Sampling Distributions)?
估計(Estimation)?
假設(shè)檢驗(Hypothesis testing)?
T檢驗(T-test)
集中趨勢(Central Tendency)
1. 眾數(shù)
出現(xiàn)頻率最高的數(shù)。
2. 中位數(shù)
把樣本值排序,分布在最中間的值
樣本總數(shù)為奇數(shù)時,中位數(shù)為第(n+1)/2個值
樣本總數(shù)為偶數(shù)時,中位數(shù)是第n/2個,第(n/2)+1個值的平均數(shù)
3. 平均數(shù)
所有數(shù)的總和除以樣本數(shù)量。
小結(jié):現(xiàn)在大家接觸最多的概念應(yīng)該是 平均數(shù),但有時候,平均數(shù)會因為某些極值(Outlier)的出現(xiàn)收到很大影響。
舉個小例子,你們班有20人,大家收入差不多,19人都是5000左右,但是有1個同學(xué)創(chuàng)業(yè)成功了,年入1個億,這時候統(tǒng)計你們班同學(xué)收入的“平均數(shù)”就是500萬了,這也很好的解釋了,每年各地的平均收入數(shù)據(jù)出爐,小伙伴們直呼給祖國拖后腿了,那是因為大家收入被平均了,此時,“中位數(shù)”更能合理的反映真實的情況。
變異性(Variability)
1. 四分位數(shù)
上面說到了“中位數(shù)”,把樣本分成了2部分,再找個這2部分各自的“中位數(shù)”,也就把樣本分為了4個部分,其中1/4處的值記為Q1,2/4處的值記為Q2,3/4處的值記為Q3
2. 四分位距 IQR=Q3-Q1

3. 異常值(Outlier)
小于Q1-1.5(IQR)或者大于Q3+1.5(IQR);對于異常值,我們在處理時需要剔除。
4. 方差(Variance)

5. 平方偏差(Standard Deviation)
方差的算術(shù)平方根
6. 貝塞爾矯正:修正樣本方差
問:為什么要用貝塞爾矯正?
實際在計算方差時,分母要用n-1,而不是樣本數(shù)量n,原因如下

歸一化(Standardizing)
1. 標(biāo)準(zhǔn)分?jǐn)?shù)(Z-score)
一個給定分?jǐn)?shù) 距離 平均數(shù) 多少個標(biāo)準(zhǔn)差?
標(biāo)準(zhǔn)分?jǐn)?shù)是一種可以看出某分?jǐn)?shù)在分布中相對位置的方法。
標(biāo)準(zhǔn)分?jǐn)?shù)能夠真實的反映一個分?jǐn)?shù)距離平均數(shù)的相對標(biāo)準(zhǔn)距離。

正態(tài)分布(Normal Distributions)
1. 定義
隨機變量X服從一個數(shù)學(xué)期望為μ,方差為σ?2;的正態(tài)分布,記為N(μ,σ?2;)
隨機取一個樣本,有68.3%的概率位于距離均值μ有1個標(biāo)準(zhǔn)差σ內(nèi)
有95.4%的概率位于距離均值μ有2個標(biāo)準(zhǔn)差σ內(nèi)
有99.7%的概率位于距離均值μ有3個標(biāo)準(zhǔn)差σ內(nèi)

抽樣分布(Sampling Distributions)
1. 中心極限定理(Central Limit Theorem)
設(shè)從均值為μ,方差為σ?2;的任意一個總體中抽取樣本量為n的樣本,當(dāng)n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ?2;/n的正態(tài)分布
2. 抽樣分布(Sampling Distributions)
設(shè)總體共有N個元素,從中隨機抽取一個容量為n的樣本,在重置抽樣時,共有N·n種抽法,即可以組成N·n不同的樣本,在不重復(fù)抽樣時,共有N·n個可能的樣本。每一個樣本都可以計算出一個均值,這些所有可能的抽樣均值形成的分布就是樣本均值的分布。
但現(xiàn)實中不可能將所有的樣本都抽取出來,因此,樣本均值的概率分布實際上是一種理論分布。數(shù)理統(tǒng)計學(xué)的相關(guān)定理已經(jīng)證明:在重置抽樣時,樣本均值的方差為總體方差的1/n
例子:48盆MM豆,計算出每盆有幾個藍(lán)色的MM豆,48個數(shù)據(jù)構(gòu)成了總體樣本。然后隨機選擇五盆,計算五盆中含有藍(lán)色MM豆的平均數(shù),然后反復(fù)進行了50次。這就是n為5的樣本均值抽樣。

估計(Estimation)
1. 誤差界限(Margin of error)

2. 置信度(Confidence level)
We are some % sure the true population parameter falls within a specific range
我們有百分之多少確信總體中的值落在一個特定范圍內(nèi);一般情況下,取95%的置信度就可以。
3. 置信區(qū)間(Confidence Interval)

假設(shè)檢驗(Hypothesis testing)

1. 問題:什么是顯著性水平?
顯著性水平是估計總體參數(shù)落在某一區(qū)間內(nèi),可能犯錯誤的概率,也就是Type I Error
A Type II Error is when you fail to reject the null when it is actually false.


2. 如何選擇備選檢驗和零假設(shè)
一個研究者想證明自己的研究結(jié)論是正確的,備擇假設(shè)的方向就要與想要證明其正確性的方向一致;同時將研究者想收集證據(jù)證明其不正確的假設(shè)作為原假設(shè)H0
T檢驗(T-test)
1.?主要用于樣本含量較小(例如n<30),總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布
流程如下:

是用t分布理論來推論差異發(fā)生的概率,從而比較兩個平均數(shù)的差異是否顯著;一般檢驗水準(zhǔn)α取0.05即可;計算檢驗統(tǒng)計量的方法根據(jù)樣本形式不同。
2. 獨立樣本T檢驗
現(xiàn)在要分析男生和女生的身高是否相同兩者的主要區(qū)別在于數(shù)據(jù)的來源和要分析的問題。

問題:為什么T檢驗查表時候要n-1?樣本均值替代總體均值損失了一個自由度
3. 配對樣本t檢驗
分析人的早晨和晚上的身高是否不同,于是找來一撥人測他們早上和晚上的身高,這里每個人就有兩個值,這里出現(xiàn)了配對

樣本誤差(Standard Error)


當(dāng)樣本平均數(shù)不一樣,但實際上認(rèn)為他們的方差是一樣的時候,需要合并方差不要被公式嚇到,他的本質(zhì)是兩個樣本方差加權(quán)平均。


5. Cohen’s d
效應(yīng)量(effect size):提示組間真正的差異占統(tǒng)計學(xué)差異的比例,值越大,組間差異越可靠。


END
愛數(shù)據(jù)福利大放送
今天,小編為大家準(zhǔn)備了統(tǒng)計學(xué)精選學(xué)習(xí)禮包,包含17張統(tǒng)計學(xué)高清思維導(dǎo)圖以及2021年精選統(tǒng)計學(xué)資料大全。
掃描下方二維碼
回復(fù)【1219】領(lǐng)取吧~



