国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

chrome擴(kuò)展應(yīng)用web scraper使用教程

2023-08-01 17:24 作者:新的褪色者  | 我要投稿

有同學(xué)私信對于網(wǎng)頁爬蟲比較感興趣,用python寫又不怎么會,其他的爬蟲軟件又收費,那么有沒有即免費又好用的爬蟲應(yīng)用呢?最近發(fā)現(xiàn)了一個chrome的擴(kuò)展應(yīng)用web scraper,這個直接在chrome瀏覽器里下載即可。google搜索:應(yīng)用商店,或者直接打開下面這個連接:https://chrome.google.com/webstore/category/extensions?hl=zh-CN

添加到chrome瀏覽器即可。

然后我們打開我的網(wǎng)站,按下F12,在最后就能看到剛才安裝的瀏覽器插件了,這里點擊create new sitmap,然后添加一個名字和當(dāng)前的頁面鏈接,點擊create sitemap如下圖所示:

添加后需要add new selector,如下圖所示:

點擊后,這里需要注意了,這里需要爬取的文章目錄。因為博客內(nèi)的文章很多所以需要多選同類型的標(biāo)簽,勾選mulitple,type的類型選擇鏈接,然后選擇多個文章的標(biāo)題,如下圖所示:

點擊done selecting,完成選擇,得到如下的ID和selcetor。

再點擊articles后進(jìn)入下一層,如下圖。同樣需要add new selector:

這時候我們需要進(jìn)入博客內(nèi)的一個頁面,設(shè)置一個Id為title,type為默認(rèn)text,然后點擊select,選擇標(biāo)題–最簡單最有效-幾秒捏實現(xiàn)AI換臉,然后點擊Down selecting和save selector如下圖所示。

然后增加一個發(fā)布時間選項,設(shè)置一個Id為time,type為默認(rèn)text,然后點擊select,選擇時間-2023年7月21日,然后點擊Down selecting和save selector如下圖所示。

繼續(xù)和上面一樣,按照步驟設(shè)置一個Id為txt,type為默認(rèn)text,然后點擊select,選擇整個文章,然后點擊Down selecting和save selector如下圖所示。

這樣我們就得到了下圖的結(jié)構(gòu):

這時候可以點擊右側(cè)的data preview,查看預(yù)爬取的內(nèi)容,如下:

做到這一步只是,實現(xiàn)了第一頁的文章采集,其實可以通過下圖看出一共有11個文章頁面,最后需要回到root,實現(xiàn)翻頁爬取的效果。

這里需要設(shè)置一個Id為page,type為pagination,然后點擊select,選擇1和…,然后點擊Down selecting和save selector如下圖所示。

注意:這里需要編輯articles里的Parent Selectors,選擇root和page,然后點擊save selector,如下圖,以便爬取所有的網(wǎng)頁文章。

然后點擊sitemap x521里的scrape等待爬取完畢,然后export data,導(dǎo)出為.xlsx格式的文件

這樣就直接導(dǎo)出為表格,最后得到了所有的文章標(biāo)題、發(fā)布時間和內(nèi)容。

顯然這個教程不如視頻看起來直觀,并且需要一定的html知識。操作上遇到困難的同學(xué)可以直接私信我。


chrome擴(kuò)展應(yīng)用web scraper使用教程的評論 (共 條)

分享到微博請遵守國家法律
卓资县| 永靖县| 黄梅县| 师宗县| 农安县| 白朗县| 龙州县| 金乡县| 建德市| 红安县| 土默特右旗| 新源县| 弥渡县| 景泰县| 垣曲县| 伊金霍洛旗| 洛宁县| 湘潭市| 彰化县| 克拉玛依市| 沽源县| 屏山县| 肇州县| 清镇市| 阿拉善左旗| 浪卡子县| 蓬莱市| 库车县| 永城市| 平谷区| 临澧县| 伽师县| 辽宁省| 定州市| 偃师市| 张家港市| 鄂伦春自治旗| 凤冈县| 固原市| 叶城县| 南皮县|