Python 教程:從 Python 爬蟲到數(shù)據(jù)分析

數(shù)據(jù)分析是 Python 編程廣泛應(yīng)用的領(lǐng)域之一,數(shù)據(jù)分析員借助 Python 語法簡單明晰、應(yīng)用范圍廣泛的特性,通過爬蟲、整合數(shù)據(jù)等多樣化的依賴與函數(shù),進(jìn)一步提高數(shù)據(jù)分析的能力與效率。
在這篇教程中,同學(xué)將整合之前所學(xué)習(xí)的 Python 爬蟲技巧,進(jìn)一步學(xué)習(xí)如何將所爬取的數(shù)據(jù)儲存到 CSV 文件中。
學(xué)習(xí) Python 爬蟲,手把手通過 Python 入門爬取網(wǎng)頁信息
什么是 CSV 文件?
CSV 即逗號分隔值(Comma Separated Values)的縮寫,是一種常用于儲存表格數(shù)據(jù)的文件格式。這種文件格式在機(jī)器學(xué)習(xí)中十分常見,同時也能通過 Excel 等常見的表格處理軟件打開。在 Python 編程中,程序員只需借助 csv 和 pandas 依賴即可將數(shù)據(jù)儲存為 CSV 格式,供數(shù)據(jù)分析使用。

此次的教程將使用 Lightly 進(jìn)行實(shí)操講解,同學(xué)們只需將項(xiàng)目復(fù)制到個人賬戶中,即可打開項(xiàng)目中 WebAnalyser.py 文件,使用瀏覽器在線編碼:
https://538cd3972a-share.lightly.teamcode.com
如何打開并編輯他人用 Lightly 分享的項(xiàng)目?
安裝依賴
此次教程所需的依賴包括:requests、bs4、csv 和 pandas。通過 Lightly 學(xué)習(xí)的小伙伴可直接在項(xiàng)目頁面中,通過 import 導(dǎo)入依賴,再將鼠標(biāo)懸浮至相應(yīng)的依賴名稱,一鍵安裝缺失依賴。
使用 BeautifulSoup 查找所需的資料
安裝好依賴后,我們可以通過 requests 和 beautifulsoup 獲取 HTML 代碼,并從代碼中查找所需的內(nèi)容。

開啟 CSV 文件
開啟 CSV 文件的 CSV 與 pandas 代碼分別如下:
‘csvfile’ ‘df’ 等變量名稱可隨意替換,pythonjobs.csv 等文件名稱、columns 變量內(nèi)的表格標(biāo)題也可隨表格內(nèi)容適當(dāng)替換。
寫入 CSV 文件
開啟 CSV 文件的先行工作完成后,即可通過以下代碼,準(zhǔn)備將數(shù)據(jù)內(nèi)容寫入文件中:
然后結(jié)合 Python 爬蟲教程所學(xué)習(xí)的知識,進(jìn)一步完善所寫入的內(nèi)容:

關(guān)閉 CSV 文件
確認(rèn)所有內(nèi)容寫入后,即可再次通過代碼關(guān)閉 CSV 文件,整個爬蟲 + 導(dǎo)出 CSV 的 Python 程序便完成了:
在 Lightly IDE 右上角點(diǎn)擊運(yùn)行程序后,即可在左側(cè)的項(xiàng)目欄中找到已生成的 pythonjobs.csv 文件:

用戶也可以右鍵下載文件,在 Excel 中查看:

Excel 中的效果:

Python 數(shù)據(jù)分析項(xiàng)目代碼
https://538cd3972a-share.lightly.teamcode.com
此次的 Python 爬蟲與數(shù)據(jù)分析教程到此,歡迎留言你的疑問以及未來想更深入了解的內(nèi)容,也歡迎閱讀 Lightly 往期的 Python 文章:
學(xué)習(xí) Python 爬蟲,手把手通過 Python 入門爬取網(wǎng)頁信息
TeamCode 官網(wǎng) | www.teamcode.com
Lightly 官網(wǎng) | lightly.teamcode.com