国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

pandas處理文本數(shù)據(jù)實(shí)例:芝加哥食品檢查、公司客戶地址

2023-07-27 14:22 作者:矢來美羽MIUYARAI  | 我要投稿

芝加哥食品檢查(注意,有15萬行數(shù)據(jù))chicago_food_inspections.csv
公司客戶地址:customers.csv
鏈接:https://pan.baidu.com/s/1zNYRXzBSvwUxKABQS6DOBA?pwd=1234

1. 字符串空格

輸出后發(fā)現(xiàn),沒有右對(duì)齊,因此是存在前后空格的非標(biāo)準(zhǔn)字符串:

刪除前后空格.strip():【僅左空格是.lstrip(),僅右空格是.rstrip()】

針對(duì)每列操作,使用for循環(huán):

2. 字母大小寫

全部小寫:

全部大寫:

字符串首字母大寫:

每個(gè)單詞首字母大寫:

3. 字符串切片

提取每一行的風(fēng)險(xiǎn)級(jí)別High、Medium、Low。

3.1 首先檢查數(shù)據(jù),是否都符合要求。

查看唯一值:.unique()

可見除了'Risk 1 (High)'、'Risk 2 (Medium)'、'Risk 3 (Low)'還有'All'和nan:

解決方案:將nan行刪去、將'All'改為'Risk 4 (Extreme)'

將nan行刪去:.dropna(subset = ["Risk"])

將'All'改為'Risk?4?(Extreme)':.replace()

現(xiàn)在符合要求:

3.2 切片

按字符串順序:.slice()

或者直接列表切片:

包括5,不包括6,提取的就是Risk后面的數(shù)字:

不規(guī)則長(zhǎng)度的風(fēng)險(xiǎn)級(jí)別切片:

成功實(shí)現(xiàn):

4. 文本查找

字符串包含"pizza":contains()

字符串開頭/結(jié)尾包含"tacos":startwith() /?endwith()

5. 字符串拆分

對(duì)于customers.csv,姓名拆分為列表:

第3個(gè)名字被拆了兩次。限制最大拆分?jǐn)?shù):

列表中內(nèi)容提?。篻et()【可以是0、1、-1】

生成DataFrame而非Series的列表:expand=True

添加到之前的DataFrame中:

刪除本來的Name列:

6. 拓展

可以用同樣的方法處理Address。

在.replace()中,可以用regex = True參數(shù)打開正則表達(dá)式。


pandas處理文本數(shù)據(jù)實(shí)例:芝加哥食品檢查、公司客戶地址的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
安溪县| 兰坪| 武乡县| 遂川县| 肃南| 北川| 会东县| 疏附县| 唐山市| 临西县| 马关县| 福州市| 平湖市| 安图县| 晋城| 海丰县| 菏泽市| 射阳县| 乌海市| 兴文县| 融水| 庆城县| 大同市| 银川市| 肥西县| 五家渠市| 观塘区| 定安县| 双鸭山市| 伊宁县| 江安县| 治多县| 汾西县| 通州市| 陕西省| 尉氏县| 沙田区| 华阴市| 富蕴县| 龙游县| 湟中县|