手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習(xí) » 【Pandas】Pandas基礎(chǔ)知識匯總

【Pandas】Pandas基礎(chǔ)知識匯總

2023-01-30 10:09 作者:阿提艾斯 0人讀過 | 我要投稿

1. Pandas作用

用于數(shù)據(jù)分析、數(shù)據(jù)處理和數(shù)據(jù)可視化。

2. Pandas數(shù)據(jù)讀取

使用pandas首先要導(dǎo)入包：

2.1 讀取csv文件

加載以逗號為分隔符的CSV(Comma-Separated Values)文件

?pd.read_csv()，參數(shù)如下：

sep: 指定分隔符
names: list類型，指定columns名稱
engine: 使用的分析引擎?？梢赃x擇C或者是python。C引擎快但是Python引擎功能更加完備。
header: 用作列名的行號，以及數(shù)據(jù)。

默認是infer，會將文件第一行數(shù)據(jù)作為列名，等同于header=0。
None，會默認生成數(shù)字0,1,2,3...作為列名。
數(shù)字n，會將數(shù)據(jù)的第n行作為列名。

CSV文件的第一行指定列的數(shù)據(jù)頭

如果CSV文件第一行沒有數(shù)據(jù)頭，read_csv參數(shù)中需要指定： header=None

2.2 讀取excel文件

pd.read_excel(), 讀取excel文件，參數(shù)如下：

skiprows: 忽略行數(shù)，pandas處理的時候會忽略前n行

df.to_execl(): 將df數(shù)據(jù)存入到excel文件，參數(shù)如下：

index: False，存文件時不會把索引名稱存進去；為True則會連索引一并存儲。

2.3 讀取json文件

2.4 讀取數(shù)據(jù)庫

2.4.1 讀取Sqlite數(shù)據(jù)庫

2.4.2 讀取MySQL數(shù)據(jù)庫

2.5 查看數(shù)據(jù)

3. pandas數(shù)據(jù)結(jié)構(gòu)

3.1 DataFrame

DataFrame是二維數(shù)據(jù)。既有行索引index，也有列索引columns。

類型： <class 'pandas.core.frame.DataFrame'>

3.1.1 根據(jù)多個字典序列創(chuàng)建DataFrame

運行結(jié)果：

3.1.2 多維數(shù)組創(chuàng)建DataFrame

運行結(jié)果：

3.1.3 查詢DataFrame數(shù)據(jù)

3.2 Series

Series: 一維數(shù)據(jù)，一行或一列。

3.2.1 使用list列表創(chuàng)建Series

運行結(jié)果：

也可以指定索引名稱，替換掉自動生成的數(shù)字索引

運行結(jié)果：

3.2.2 使用字典創(chuàng)建Series

使用字典生成的Series，索引為字典的key值

運行結(jié)果：

3.2.3 根據(jù)標簽索引查詢數(shù)據(jù)

4. Pandas查詢數(shù)據(jù)

4.1 loc方法

根據(jù)行、列的標簽值查詢。

4.1.1 使用單個label值查詢數(shù)據(jù)

得到單個值：

得到一個Series：

4.1.2 使用值列表批量查詢

獲取行索引為1和2，列索引為‘身高’數(shù)據(jù)，返回類型為Series

獲取行索引為1和2，列索引為‘身高’和'體重'的數(shù)據(jù)，返回類型為DataFrame

4.1.3 使用數(shù)值區(qū)間進行范圍查詢

行索引按區(qū)間查詢：

列索引按區(qū)間查詢：

行和列都按區(qū)間查詢：

4.1.4 使用條件表達式查詢

查詢身高大于等于1.75的所有行記錄：

當(dāng)有多個條件時，可以像下面這些寫，&符號不要切換成and

4.1.5 調(diào)用函數(shù)查詢

1）使用匿名表達式查詢

2）自定義函數(shù)查詢

查找出愛好為看書的記錄

4.2 iloc方法

根據(jù)行、列的數(shù)字位置查詢

4.3 where方法

待補充...

4.4 query方法

待補充...

5. 數(shù)據(jù)新增與更新

5.1 直接賦值

例1：讓所有記錄的體重列增加1kg

例2：新增列'身高/體重'，計算所有記錄的該比值

或者寫為如下形式

5.2 df.apply方法

對某一列統(tǒng)一做函數(shù)處理，注意axis=1表示的是列索引，axis=0表示的是行索引。

5.3 df.assign方法

assign方法不會修改原有的dataframe

例1：將所有記錄的體重翻倍，并賦給新列

5.4 按條件選擇分組分別賦值

條件判斷里寫的時候需要注意，在python中1<a<10這種寫法是可以的，但是在.loc方法里這樣寫會報錯，所以遇到這種情況，需要使用&符號連接多個條件來寫。

查看dataframe:

6. Pandas數(shù)據(jù)統(tǒng)計函數(shù)

6.1 匯總類統(tǒng)計

提取所有數(shù)字列統(tǒng)計結(jié)果

獲取身高列的最小值

獲取年齡列的平均值

6.2 唯一去重和按值計數(shù)

唯一性去重

按值計數(shù)

6.3 相關(guān)系數(shù)和協(xié)方差

6.3.1 概念

對于兩個變量X、Y：

協(xié)方差：衡量同向反向程度，如果協(xié)方差為正，說明X,Y通向變化，協(xié)方差越大說明同向程度越高；如果協(xié)方差為負，說明X，Y反向運動，協(xié)方差越小說明反向程度越高。
相關(guān)系數(shù)：衡量相似度程度，當(dāng)他們的相關(guān)系數(shù)為1時，說明兩個變量變化時的正向相似度最大，當(dāng)相關(guān)系數(shù)為-1時，說明兩個變量變化的反向相似度最大。

6.3.2 相關(guān)方法

協(xié)方差矩陣

相關(guān)系數(shù)矩陣

單獨計算相關(guān)系數(shù)

計算年齡和體重的相關(guān)系數(shù)

7. Pandas對缺失值的處理

7.1 監(jiān)測缺失值

isnull()：判斷df每個元素是否為null，是null為True，不是null為False。

單個列判斷是否都為空：

notnull()：和isnull()相反，判斷df各個元素是否不為null，不是null為True，是null為False。

篩選體重已登記的行：

7.2 丟棄缺失值

dropna：丟棄、刪除缺失值，以下是該函數(shù)的三個參數(shù)：

aixs：刪除行還是列，{0 or 'index', 1 or 'columns'}, default 0。
how：如果等于any則任何值為空都刪除，如果等于all則所有值都為空才刪除。
inplace：如果為true則修改當(dāng)前df，否則返回新的df。

刪除全是空值的列

7.3 填充缺失值

fillna：填充空值，參數(shù)如下：

value: 用于填充的值，可以是單個值，或者字典（key是列明，value是值）。
method: 等于ffile使用前一個不為空的值填充forword fill；等于bfill使用后一個不為空的值填充 backword fill。
axis: 按行還是列填充，{0 or 'index', 1 or 'columns'}
inplace: 如果為true則修改當(dāng)前df，否則返回新的df。

將體重為空的元素填充為100，默認是生成新的df，如果想在原有df上修改，需要添加參數(shù)inplace=True

等同于

8. Pandas的SettingWithCopyWarning告警

pandas不允許先篩選子dataframe，再進行修改寫入。

兩種解決方案：

使用.loc實現(xiàn)一個步驟直接修改源dataframe。
先復(fù)制一個dataframe再一個步驟執(zhí)行修改。

9. Pandas數(shù)據(jù)排序

9.1 Series排序

Series.sort_values(): 對Series進行排序，參數(shù)如下：

ascending: 默認為True升序排序，為False降序排序
inplace: 是否修改原始Series

例子1：對體重列進行升序排序

例子2：對體重列進行降序排列

9.2 DataFrame排序

DataFrame.sort_values(): 對DataFrame進行排序，參數(shù)說明如下：

by: 字符串或者list<字符串>，單列排序或者隊列排序
ascending: bool或者list,升序還是降序，如果是list對應(yīng)by的多列
inplace: 是否修改原始DataFrame

例子1：單列排序

按照體重進行排序，默認升序

如果想要降序排列，只需要添加參數(shù)ascending=False即可。

例子2： 多列排序

按照年齡和體重排序

按照年齡和體重排序，但是年齡按升序排，體重按降序排：

10. Pandas字符串處理

處理過程如下：

1）先獲取Series的str屬性，然后在屬性上調(diào)用函數(shù)；

2）只能在字符串列上使用，不能數(shù)字列上使用；

3）DataFrame上沒有str屬性和處理方法；

4）Series.str并不是Python原生字符串，而是自己的一套方法，大部分和原生str很相似。

字符串替換: replace

將看替換為閱讀

也可以寫為如下形式，Series.str默認開啟了正則表達式模式，也可以通過參數(shù)regex=False進行關(guān)閉。

判斷是不是數(shù)字: isnumeric

計算字符串長度: len

以特定字符/字符串開頭: startswith

包含特定字符/字符串: contains

11.? Pandas的axis參數(shù)

axis=0或者"index"

如果是單行操作，就指的某一行
如果是聚合操作，指的是跨行cross rows

axis=1或者"columns"

如果是單列操作，就指的某一列
如果是聚合操作，指的是跨列cross columns

例子1：刪除一行數(shù)據(jù)

例子2：刪除一列數(shù)據(jù)

例子3：驗證axis=0，如果是聚合操作，指的是跨行cross rows

下方代碼是跨行求平均值

先看下運行結(jié)果，發(fā)現(xiàn)計算的是每一列的平均值。跨行指的就是列不動，從行的方向上依次計算每列的聚合操作結(jié)果。

例子4：驗證axis=1, 如果是聚合操作，指的是跨列cross columns

下方代碼是跨列求平均值

從結(jié)果看出，計算的確實是每一行的平均值。跨列指的就是行不動，從列的方向上依次計算每行的聚合操作結(jié)果。

12. Pandas的索引index用途

用途：

方便數(shù)據(jù)查詢
獲得性能提升
自動數(shù)據(jù)對齊功能
更多數(shù)據(jù)結(jié)構(gòu)支持

索引上的一些方法：

索引是否單調(diào)遞增，是返回True，否返回False

索引是否唯一，是返回True,否返回False

12.1 使用index查詢數(shù)據(jù)

將索引修改為user_id列，drop=False會讓user_id保留在column

drop=True之后，發(fā)現(xiàn)列user_id不見了。

根據(jù)索引，查詢id為2的數(shù)據(jù)

查詢結(jié)果：如果查詢結(jié)果只有一條記錄，會以鍵值對的形式展示出來.

如果查詢結(jié)果有多條記錄，會以表格形式展示出來。

12.2 使用index提升查詢性能

如果index是唯一的，Pandas會使用哈希表優(yōu)化，查詢性能為O(1);
如果index不是唯一的，但是有序，Pandas會使用二分查找算法，查詢性能為O(logN);
如果index是完全隨機的，那么每次查詢都要掃描全表，查詢性能為O(N)。

12.3 使用index自動對齊數(shù)據(jù)

參考下方代碼，當(dāng)兩個Series相加時，相等的index對應(yīng)的列會被對應(yīng)相加，但是各自獨有的index，相加后變?yōu)榱薔aN。

12.4 使用index更多更強大的數(shù)據(jù)結(jié)構(gòu)支持

CategoricalIndex,基于分類數(shù)據(jù)的Index，提升性能；
MultiIndex，多維索引，用于groupby多維聚合后結(jié)果等；
DatetimeIndex,時間類型索引，強大的日期和時間的方法支持。

13. Pandas的Merge語法

left, right: 要merge的dataframe或者有name的Series。
how: join類型， left, right, outer, inner
on: join的key，left和right都需要有這個key
left_on: left的df或者series的key
right_on: right的df或者series的key
left_index, right_index: 使用index而不是普通的column做join
suffixes: 兩個元素的后綴，如果列有重名，自動添加后綴，默認是('_x', '_y')

左連接、右連接、內(nèi)連接、外連接區(qū)別

14. Pandas的Concat合并

語法：pd.concat(objs, axis=0, join='outer', ignore_index=False)

objs: 一個列表，可以是DataFrame或者Series，也可以是DataFrame和Series的混合列表。
axis: 默認是0，按行合并，如果等于1代表按列合并。
join: 合并的時候索引的對齊方式，默認是outer join，也可以是inner join。
ignore_index: 是否忽略掉原來的數(shù)據(jù)索引。

15. Pandas拆分

拆分： df.iloc[]

例子：

16. Pandas分組統(tǒng)計groupby

groupby：先對數(shù)據(jù)分組，然后在每個分組上應(yīng)用聚合函數(shù)、轉(zhuǎn)換函數(shù)。

16.1 groupby相關(guān)操作

遍歷groupby結(jié)果

獲取單個分組的數(shù)據(jù)

16.2 groupby實例

單個列g(shù)roupby，查詢所有數(shù)據(jù)列的統(tǒng)計

求電影的平均分

多個列g(shù)roupby，查詢所有數(shù)據(jù)列的統(tǒng)計

下方代碼會先對userId分組，然后再對movieId分組，然后再求分組后的其他列的平均值。此時的userId和movieId變成了二級索引。

下方代碼比上面的代碼多了參數(shù)as_index=False，A和B不再是索引，而是結(jié)果中的一部分。

同時查看多種數(shù)據(jù)統(tǒng)計

求每部電影的評分總和、評分平均值、評分標準差

從結(jié)果可以看出列分出了二級索引。

查看單列的結(jié)果數(shù)據(jù)統(tǒng)計

分組之后獲取某一列的總和、平均值和標準差

發(fā)現(xiàn)二級索引沒了，這里提前對分組后的列做了過濾，性能會更好。

不同列使用不同的聚合函數(shù)

按電影id分組后，對評分求平均值和總和，對userId求個數(shù)。

17. Pandas分層索引

17.1 常用操作

查看索引

以下會生成一個二級索引

把二級索引變成列

把所有索引都變成列

設(shè)置索引

將元數(shù)據(jù)的userId和movieId設(shè)置為索引。

對索引排序

18. 數(shù)據(jù)轉(zhuǎn)換函數(shù)map、apply、applymap

18.1 map

map只用于Series，實現(xiàn)每個值-》值的映射。

使用方法：

Series.map(dict)

Series.map(function)

18.2 apply

apply用于Series實現(xiàn)每個值的處理，用于Dataframe實現(xiàn)某個軸的Series的處理。

Series.apply(function)

DataFrame.apply(function)

18.3 applymap

只能用于DataFrame，用于處理該DataFrame的每個元素。

例子：

19. Pandas的stack和pivot實現(xiàn)數(shù)據(jù)透視

將列式數(shù)據(jù)變成二維交叉數(shù)據(jù)，便于分析，叫做重塑或透視。

透視的方法：

19.1 使用unstack實現(xiàn)數(shù)據(jù)二維透視

stack: DataFrame.stack(level=-1, dropna=True)，將column變成index

level=-1代表多層索引的最內(nèi)層，可以通過==0、1、2指定多層索引的對應(yīng)層。

unstack: DataFrame.unstack(level=-1, fill_value=None)，將index變成column。

例子：

原始數(shù)據(jù)如下：

unstack之后的數(shù)據(jù)如下：

stack之后的數(shù)據(jù)如下：

參考代碼：

透視之后效果：

19.2 使用pivot簡化透視

pivot: DataFrame.pivot(index=None, columns=None, values=None)

指定index、columns、values實現(xiàn)二維透視。

原始數(shù)據(jù)：

參考代碼：

透視效果：

pivot方法相當(dāng)于對df使用set_index創(chuàng)建分層索引，然后調(diào)用unstack。

20. 參考資料

Pandas官方中文文檔： https://www.pypandas.cn/docs/getting_started/
電影數(shù)據(jù)集： https://grouplens.org/datasets/movielens/

標簽：

【Pandas】Pandas基礎(chǔ)知識匯總的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

【Pandas】Pandas基礎(chǔ)知識匯總

【Pandas】Pandas基礎(chǔ)知識匯總的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

【Pandas】Pandas基礎(chǔ)知識匯總

本文作者的其他文章

【Pandas】Pandas基礎(chǔ)知識匯總的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【Pandas】Pandas基礎(chǔ)知識匯總的評論 (共條)