中V相關(guān)的簡單數(shù)據(jù)處理(基于Excel)
本文講的東西基本都是Excel的簡單功能,不過實(shí)踐中發(fā)現(xiàn)還是有些人不太能掌握。所以寫一個(gè)專欄介紹一下。Excel雖然不是什么專業(yè)軟件,但是對于幾千行及以內(nèi)的數(shù)據(jù),處理分析還是十分高效的。
本文使用的示例數(shù)據(jù)如下所示

其中時(shí)間日期已經(jīng)通過了預(yù)處理,將UNIX時(shí)間戳轉(zhuǎn)化為Excel可以識別的時(shí)間。
一、數(shù)據(jù)篩選

全選數(shù)據(jù)表(可以按下Ctrl + A),然后使用“排序與篩選”中的“篩選”功能。
使用之后,在第一行出現(xiàn)各列的按鈕,可以進(jìn)行篩選。

譬如選出表中ilem投稿的所有投稿


篩選功能還可以實(shí)現(xiàn)大于、小于等多種功能。
二、簡單的函數(shù)使用
這一段以例子的方式說明COUNTIF、COUNTIFS、SUMIF等常見簡單函數(shù)的用法。
什么是函數(shù)呢?
在中學(xué)數(shù)學(xué)里,我們學(xué)過類似于這種函數(shù)。我們這里不妨把輸入的那個(gè)數(shù)據(jù)
稱為“參數(shù)”,把輸出的結(jié)果
稱為函數(shù)的“返回值”。
可以把函數(shù)理解為一個(gè)加工廠,往里面輸入,它會(huì)輸出加工后的產(chǎn)品
。當(dāng)然,在Excel中,函數(shù)的參數(shù)可以有多個(gè),也可以只有零個(gè)。
例1:數(shù)出表中播放量大于等于1000萬的投稿數(shù)目(神話曲個(gè)數(shù))。
本題使用COUNTIF函數(shù),其中第一個(gè)參數(shù)是“單元格的范圍”,第二個(gè)參數(shù)是條件。我們要數(shù)出D2:D13這些單元格中大于1000萬的個(gè)數(shù)。
=COUNTIF(D2:D13,">=10000000")
執(zhí)行結(jié)果:3

例2:數(shù)出表中播放量大于等于500萬單小于1000萬的投稿數(shù)目(申舌曲個(gè)數(shù))。
使用COUNTIFS來代替COUNTIF,來使用多個(gè)條件。
=COUNTIFS(D2:D13,">=5000000",D2:D13,"<10000000")
執(zhí)行結(jié)果:5
有人可能會(huì)問,為什么這里需要寫兩次D2:D13呢?可以看下一個(gè)例子。

例3:數(shù)出表中由ilem投稿的、播放量大于等于1000萬的投稿數(shù)目(ilem神話曲個(gè)數(shù))。
類似于上例,只不過兩個(gè)條件分別作用于播放量那一列和UP主那一列。
=COUNTIFS(D2:D13,">=10000000",F2:F13,"=ilem")
輸出結(jié)果:2

例4:計(jì)算表中,ilem投稿作品的總播放量。
類似上例的COUNTIFS,count是計(jì)數(shù)的意思,這里換成用于求和的sum,即SUMIFS。
SUMIFS的第一個(gè)參數(shù)是求和的單元格,第二個(gè)參數(shù)是條件的單元格,第三個(gè)參數(shù)是條件。
=SUMIFS(D2:D13,F2:F13,"=ilem")
輸出結(jié)果:42461988

三、函數(shù)的嵌套使用
到此,都還是比較簡單的,因?yàn)橹挥玫搅艘粋€(gè)函數(shù),沒有出現(xiàn)函數(shù)的嵌套。
下面就開始有函數(shù)的嵌套了。
例5:計(jì)算表中,ilem投稿作品的播放量的幾何平均數(shù)。
看了前4個(gè)例子,COUNT用于計(jì)數(shù),COUNTIF、COUNTIFS用于有條件的計(jì)數(shù);SUM用于求和,SUMIF、SUMIFS用于有條件的求和。
大家知道GEOMEAN是求幾何平均數(shù)的函數(shù),慣性思維,就可能會(huì)考慮用GEOMEANIF之類的的來進(jìn)行有條件的球幾何平均數(shù)。然而,Excel中沒有GEOMEANIF這個(gè)函數(shù)。
那該怎么辦呢?
這里,我們使用GEOMEAN和IF嵌套使用:
=GEOMEAN(IF(F2:F13="ilem",D2:D13))
輸出結(jié)果:6092912.213

先說說IF這個(gè)函數(shù),它可以是IF(條件,條件成立的結(jié)果,條件不成立的結(jié)果),有時(shí)候可以省略條件不成立的結(jié)果。
IF函數(shù)最簡單的例子就是下面這種:

在這里,IF的條件是F2:F13="ilem",如果滿足這個(gè)條件,那么結(jié)果是D2:D13中的單元格。通過IF這個(gè)語句,我們把ilem投稿的作品篩查了出來,其結(jié)果(D2:D13中的單元格)再作為GEOMEAN函數(shù)的參數(shù)傳入。
例6:計(jì)算表中,litterzy投稿作品中,收藏最多投稿的收藏量。
同樣,MAX函數(shù)和IF函數(shù)相互嵌套。(因?yàn)镋xcel中沒有MAXIF函數(shù))
=MAX(IF(F2:F13="litterzy",D2:D13))
輸出結(jié)果:298050

四、數(shù)據(jù)匹配
這里我們換一張數(shù)據(jù)表

左半邊是2021年2月25日某時(shí)測取的播放量數(shù)據(jù),而右半邊是2020年1月26日某時(shí)測取的播放量數(shù)據(jù)。
例7:計(jì)算表中,各個(gè)歌曲在一年多的時(shí)間內(nèi)播放量增幅。
如果這兩側(cè)的每一行都一一對應(yīng),大家可能就直接用減法了。但是這里兩側(cè)的順序不一樣,甚至歌曲內(nèi)容也不一樣。比如左邊有萬古生香和深夜詩人,而右側(cè)有東京不太熱和神經(jīng)病之歌,左右并非完全對應(yīng)。
為了解決這個(gè)問題,我們要想辦法根據(jù)右邊的歌名,在左邊找到對應(yīng)的播放量。這就需要VLOOKUP了。
VLOOKUP函數(shù)需要四個(gè)參數(shù):要找的值,在哪里找,返回第幾列,是否是精確查找
我們先嘗試鍵入
=VLOOKUP(D2,A$2:B$13,2,FALSE)
意思是:在A$2:B$13的區(qū)域里,找到D2的值,返回值是從A$2:B$13區(qū)域里第2列對應(yīng)值。最后的FALSE表示精確查找。
(在截圖里,就是在紅色框的區(qū)域里,找到藍(lán)色框的值,返回值是從紅色框區(qū)域里第2列對應(yīng)值。)
注意:Excel中數(shù)數(shù)是從1開始數(shù)的,不是從0開始數(shù)的。

這樣,我們就得到了“普通DISCO”在左邊半張表中的播放量了。

我們向下填充,可以得到10行有有效數(shù)據(jù)。

最后面兩個(gè)為#N/A,那是因?yàn)闁|京不太熱和神經(jīng)病之歌在左邊找不到。
使用VLOOKUP的這種匹配方法,只能匹配出二者的交集。(也就是左右共有的那10首歌)
題目要求是計(jì)算播放量的增幅,那么減去歷史值即可
=VLOOKUP(D2,A$2:B$13,2,FALSE)-E2

VLOOKUP是Excel函數(shù)中的難點(diǎn),需要多加注意。
補(bǔ)充:
有人會(huì)問為什么A$2:B$13加入了“$”這樣的符號,這樣表示絕對位置,能確保在向下填充中,2和13這兩個(gè)數(shù)字不會(huì)發(fā)生變化。要不然填充第二行時(shí),就會(huì)變成A3:B14了。
五、數(shù)據(jù)透視表
數(shù)據(jù)透視表也是Excel中常用的功能。

在之前的例表中,全選表格,點(diǎn)擊“插入”-“數(shù)據(jù)透視表”。然后在彈出的窗口中點(diǎn)擊“確定”。

在打開的數(shù)據(jù)透視表右邊,有調(diào)整數(shù)據(jù)透視表字段的欄目:

例8:表中各個(gè)UP主投稿的數(shù)目有多少?

將“UP主”拖入行,將“標(biāo)題”拖入值。
結(jié)果:

例9:表中各個(gè)UP主投稿的平均播放量是多少?按從大到小排序。
把“UP主”和“播放量”拖入相應(yīng)位置:

點(diǎn)擊“求和項(xiàng):播放量”,選擇“值字段設(shè)置”

改為“平均值”,再點(diǎn)擊確定。

對結(jié)果數(shù)據(jù)排序

結(jié)果:

總結(jié)
本文介紹了Excel中基礎(chǔ)函數(shù)的用法,以及函數(shù)的相互嵌套。另外在開頭和結(jié)尾介紹了“篩選”和“數(shù)據(jù)透視表”兩個(gè)很好的功能。
不過本文例子中的數(shù)據(jù)量比較小,只有十幾行。但是實(shí)際常遇到的數(shù)據(jù)有幾百行、上千行,所以使用各種公式會(huì)顯得非常方便。
練習(xí)
如下圖所示,一個(gè)Excel的xlsx文件里有兩個(gè)表格:Sheet1和Sheet2


Sheet1存儲(chǔ)了2021年2月25日某時(shí)的VOCALOID中文殿堂曲(依據(jù)周刊收錄范圍,而非萌娘百科收錄范圍)。(數(shù)據(jù)來源:天鈿Daily)
Sheet2存儲(chǔ)了一些UID與UP主名稱的對應(yīng)關(guān)系。
原始數(shù)據(jù)下載
練習(xí)1:構(gòu)建一張新數(shù)據(jù)表,將歌曲數(shù)據(jù)與UP主名稱相對應(yīng)。
(提示:VLOOKUP)
練習(xí)2:計(jì)算表中ilem的傳說曲個(gè)數(shù)。
(提示:COUNTIFS)
練習(xí)3:計(jì)算表中各個(gè)UP主的殿堂(含傳說/神話)曲個(gè)數(shù),并按從高到低排序。
(提示:數(shù)據(jù)透視表)
思考:要把Sheet1和Sheet2拆開存儲(chǔ)?
(避免數(shù)據(jù)冗余)

之后可能還會(huì)安排MySQL數(shù)據(jù)庫 + SQL查詢語句入門。不知道有沒有空。
本文使用的是Microsoft Office 365中的Excel。上面用到的功能,Microsoft Office 2007/2010/2013/2016等版本應(yīng)該都有。Microsoft Office 2003就勸退了,數(shù)據(jù)透視表不是這樣的。金山公司的WPS我基本不用,不清楚。