国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

17. Scrapy 框架使用

2020-07-01 17:15 作者:自學(xué)Python的小姐姐呀  | 我要投稿

1 基本使用

1.1 創(chuàng)建項(xiàng)目

運(yùn)行命令: scrapy startproject myfrist(your_project_name)

image

文件說明:

名稱作用scrapy.cfg項(xiàng)目的配置信息,主要為Scrapy命令行工具提供一個基礎(chǔ)的配置信息。(真正爬蟲相關(guān)的配置信息在settings.py文件中)items.py設(shè)置數(shù)據(jù)存儲模板,用于結(jié)構(gòu)化數(shù)據(jù),如:Django的Modelpipelines數(shù)據(jù)處理行為,如:一般結(jié)構(gòu)化的數(shù)據(jù)持久化settings.py配置文件,如:遞歸的層數(shù)、并發(fā)數(shù),延遲下載等spiders爬蟲目錄,如:創(chuàng)建文件,編寫爬蟲規(guī)則

注意:一般創(chuàng)建爬蟲文件時,以網(wǎng)站域名命名

2 編寫 spdier

在spiders目錄中新建 daidu_spider.py 文件

2.1 注意

  1. 爬蟲文件需要定義一個類,并繼承scrapy.spiders.Spider

  2. 必須定義name,即爬蟲名,如果沒有name,會報錯。因?yàn)樵创a中是這樣定義的

2.2 編寫內(nèi)容

在這里可以告訴 scrapy 。要如何查找確切數(shù)據(jù),這里必須要定義一些屬性

  • name: 它定義了蜘蛛的唯一名稱

  • allowed_domains: 它包含了蜘蛛抓取的基本URL;

  • start-urls: 蜘蛛開始爬行的URL列表;

  • parse(): 這是提取并解析刮下數(shù)據(jù)的方法;

下面的代碼演示了蜘蛛代碼的樣子:

import scrapy


class DoubanSpider(scrapy.Spider):
? ?name = 'douban'
? ?allwed_url = 'douban.com'
? ?start_urls = [
? ? ? ?'https://movie.douban.com/top250/'
? ?]

? ?def parse(self, response):
? ? ? ?movie_name = response.xpath("//div[@class='item']//a/span[1]/text()").extract()
? ? ? ?movie_core = response.xpath("//div[@class='star']/span[2]/text()").extract()
? ? ? ?yield {
? ? ? ? ? ?'movie_name':movie_name,
? ? ? ? ? ?'movie_core':movie_core
? ? ? ?}

其他命令:

  • 創(chuàng)建爬蟲

    scrapy genspider 爬蟲名 爬蟲的地址
  • 運(yùn)行爬蟲

    scrapy crawl 爬蟲名


17. Scrapy 框架使用的評論 (共 條)

分享到微博請遵守國家法律
岢岚县| 永川市| 鄂托克前旗| 桦甸市| 蓝山县| 正安县| 桑日县| 桓仁| 南安市| 兰考县| 邛崃市| 买车| 响水县| 建宁县| 无为县| 巴里| 常州市| 双鸭山市| 吉林省| 达拉特旗| 交城县| 彭阳县| 阳谷县| 永康市| 闵行区| 兴安盟| 潞西市| 应城市| 绥芬河市| 东宁县| 夏河县| 正蓝旗| 彩票| 镇原县| 望都县| 长顺县| 奉化市| 西乡县| 桐城市| 清涧县| 阳朔县|