国产精品三级久久_国产亚洲成人日韩_西西人体在线视频播放_亚洲欧洲日韩5388_看永久免费无卡无码A级毛片_最新中文字幕在线2024_日本午夜高清视频_在线观看自拍少妇精品_最新国产精品无码

最近想在工作相關(guān)的項(xiàng)目上做技術(shù)改進(jìn)，需要全而準(zhǔn)的車(chē)型數(shù)據(jù)，尋尋覓覓而不得，所以就只能自己動(dòng)手豐衣足食，到網(wǎng)上獲（竊）得（取）數(shù)據(jù)了。

汽車(chē)之家是大家公認(rèn)的數(shù)據(jù)做的比較好的汽車(chē)網(wǎng)站，所以就用它吧。（感謝汽車(chē)之家的大大們這么用心地做數(shù)據(jù)，仰慕）

俗話說(shuō)的好，“十爬蟲(chóng)九python”，作為一只java狗，我顫顫巍巍地拿起了python想要感受一下scrapy的強(qiáng)大。。。

在寫(xiě)這個(gè)爬蟲(chóng)之前，我用urllib2,BeautifulSoup寫(xiě)了一個(gè)版本，不過(guò)效率太差，而且還有內(nèi)存溢出的問(wèn)題，作為python小白感覺(jué)很無(wú)力，所以用scrapy才是正道。

嗯，開(kāi)搞。

準(zhǔn)備工作

安裝python，版本是2.7

安裝scrapy模塊, 版本是1.4.0

參考

汽車(chē)之家車(chē)型數(shù)據(jù)爬蟲(chóng)[https://github.com/LittleLory/codePool/tree/master/python/autohome_spider]：這是我工程的代碼，以下內(nèi)容需要參照著代碼來(lái)理解，就不貼代碼在這里了。

Scrapy中文文檔：這是Scrapy的中文文檔，具體細(xì)節(jié)可以參照文檔。感謝Summer同學(xué)的翻譯。

Xpath教程：解析頁(yè)面數(shù)據(jù)要用到xpath的語(yǔ)法，簡(jiǎn)單了解一下，在做的過(guò)程中遇到問(wèn)題去查一下就可以了。

初始化工程

scrapy工程的初始化很方便，在shell中的指定目錄下執(zhí)行scrapy start startproject 項(xiàng)目名稱，就自動(dòng)化生成了。

執(zhí)行這步的時(shí)候遇到了一個(gè)問(wèn)題，拋出了異常"TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1"，解決方法是執(zhí)行sudo pip install twisted==13.1.0，應(yīng)該是依賴庫(kù)版本不兼容。

目錄結(jié)構(gòu)

工程初始化后，scrapy中的各個(gè)元素就被構(gòu)建好了，不過(guò)構(gòu)建出來(lái)的是一副空殼，需要我們往里邊寫(xiě)入我們的爬蟲(chóng)邏輯。

初始化后的目錄結(jié)構(gòu)是這樣的：

spiders:爬蟲(chóng)目錄，爬蟲(chóng)的爬取邏輯就放在個(gè)目錄下邊

items.py:數(shù)據(jù)實(shí)體類，在這里定義我們爬到的數(shù)據(jù)結(jié)構(gòu)

middlewares.py:爬蟲(chóng)中間件（我自己翻譯的哈），在這里定義爬取前、爬取后需要處理的邏輯

pipelines.py:數(shù)據(jù)管道，爬取后的數(shù)據(jù)實(shí)體會(huì)經(jīng)過(guò)數(shù)據(jù)管道的處理

settings.py:配置文件，可以在這里配置爬蟲(chóng)的爬取速度，配置中間件、管道是否開(kāi)啟和先后順序，配置數(shù)據(jù)輸出的格式等。

了解過(guò)這些文件的作用后就可以開(kāi)始寫(xiě)爬蟲(chóng)了。

開(kāi)始吧！

首先，確定要爬取的目標(biāo)數(shù)據(jù)。

我的目標(biāo)是獲取汽車(chē)的品牌、車(chē)系、車(chē)型數(shù)據(jù)，先從品牌開(kāi)始。

在汽車(chē)之家的頁(yè)面中尋覓一番后，找到了一個(gè)爬蟲(chóng)的切入點(diǎn)，汽車(chē)之家車(chē)型大全。這個(gè)頁(yè)面里有所有品牌的數(shù)據(jù)，正是我的目標(biāo)。不過(guò)在觀察的過(guò)程中發(fā)現(xiàn)，這個(gè)頁(yè)面里的品牌數(shù)據(jù)是在頁(yè)面向下滾動(dòng)的過(guò)程中延遲加載的，這樣我們通過(guò)請(qǐng)求這個(gè)頁(yè)面不能獲取到延遲加載的那部分?jǐn)?shù)據(jù)。不過(guò)不要慌，看一下延遲加載的方式是什么樣的。

打開(kāi)瀏覽器控制臺(tái)的網(wǎng)絡(luò)請(qǐng)求面板，滾動(dòng)頁(yè)面來(lái)觸發(fā)延遲加載，發(fā)現(xiàn)瀏覽器發(fā)送了一個(gè)異步請(qǐng)求：

復(fù)制請(qǐng)求的URL看看：

http://www.autohome.com.cn/grade/carhtml/B.html

http://www.autohome.com.cn/grade/carhtml/C.html

http://www.autohome.com.cn/grade/carhtml/D.html

找到規(guī)律了，每一次加載的URL，都只是改變了對(duì)應(yīng)的字母，所以對(duì)A到Z分別請(qǐng)求一次就取到了所有的品牌數(shù)據(jù)。

打開(kāi)http://www.autohome.com.cn/grade/carhtml/B.html看下，發(fā)現(xiàn)頁(yè)面的數(shù)據(jù)很規(guī)整，是按照品牌-廠商-車(chē)系的層級(jí)組織的。嗯，正合我意，那就開(kāi)爬吧。

編寫(xiě)Spider

在spiders目錄下邊，新建一個(gè)brand_spider.py文件，在文件中定義BrandSpider類，這個(gè)類繼承了scrapy.Spider類，這就是scrapy的Spider類。在BrandSpider中，需要聲明name變量，這是這個(gè)爬蟲(chóng)的ID；還需要聲明start_urls，這是爬蟲(chóng)的起點(diǎn)鏈接；再定義一個(gè)parse方法，里面實(shí)現(xiàn)爬蟲(chóng)的邏輯。

parse方法的入?yún)⒅校瑀esponse就是對(duì)start_urls中的鏈接的請(qǐng)求響應(yīng)數(shù)據(jù)，我們要爬取的品牌數(shù)據(jù)就在這里面，我們需要從response中提取出來(lái)。從response提取數(shù)據(jù)需要使用xpath語(yǔ)法，參考上邊的xpath教程。

提取數(shù)據(jù)之前，需要先給品牌數(shù)據(jù)定義一個(gè)實(shí)體類，因?yàn)樾枰哑放茢?shù)據(jù)存到數(shù)據(jù)實(shí)體中并落地到磁盤(pán)。在items.py文件中定義一個(gè)BrandItem類，這個(gè)類繼承了scrapy.Item類，類中聲明了爬取到的、要落地的品牌相關(guān)數(shù)據(jù)，這就是scrapy的Item類。

定義好品牌實(shí)體后，在parse方法中聲明一個(gè)BrandItem實(shí)例，然后通過(guò)reponse.xpath方法取到想要的品牌ID、品牌url、品牌名稱、圖標(biāo)url等數(shù)據(jù)，并設(shè)置到BrandItem實(shí)例中，最后通過(guò)yield來(lái)聚合爬取到的各個(gè)品牌數(shù)據(jù)并返回，返回的數(shù)據(jù)會(huì)進(jìn)入pipeline。

編寫(xiě)Pipeline

爬取到的數(shù)據(jù)接著被pipeline.py文件中定義的Pipeline類處理，這個(gè)類通常是對(duì)傳入的Item實(shí)體做數(shù)據(jù)的清洗、排重等工作，可以定義多個(gè)Pipeline，依次對(duì)Item處理。由于暫時(shí)沒(méi)有這方面的需要，就不改寫(xiě)這個(gè)文件，保持默認(rèn)狀態(tài)就好。經(jīng)過(guò)pipeline的處理后，數(shù)據(jù)進(jìn)入數(shù)據(jù)集。

輸出csv格式數(shù)據(jù)

對(duì)于爬取到的車(chē)型數(shù)據(jù)，我想以csv的格式輸出，并且輸出到指定目錄下，此時(shí)需要修改settings.py文件。

在settings.py中添加FEED_FORMAT = 'csv'和FEED_URI = 'data/%(name)s_%(time)s.csv'兩項(xiàng)，目的是指定輸出格式為csv，輸出到data目錄下，以”爬蟲(chóng)名稱_爬取時(shí)間.csv“格式命名。

執(zhí)行爬蟲(chóng)

品牌數(shù)據(jù)的爬蟲(chóng)編寫(xiě)完成了，在項(xiàng)目根目錄下執(zhí)行scrapy crawl brand，不出意外的話，在執(zhí)行了brand爬蟲(chóng)后，會(huì)在data目錄下出現(xiàn)一個(gè)新的csv文件，并且裝滿了品牌數(shù)據(jù)。

小心被屏蔽

不過(guò)需要注意一個(gè)問(wèn)題，就是當(dāng)爬蟲(chóng)高頻地請(qǐng)求網(wǎng)站接口的時(shí)候，有可能會(huì)被網(wǎng)站識(shí)別出來(lái)并且屏蔽掉，因?yàn)樘哳l的請(qǐng)求會(huì)對(duì)網(wǎng)站的服務(wù)器造成壓力，所以需要對(duì)爬蟲(chóng)限速。

在settings.py中添加DOWNLOAD_DELAY = 3，限制爬蟲(chóng)的請(qǐng)求頻率為平均3秒一次。

另外，如果爬蟲(chóng)發(fā)送的請(qǐng)求頭中沒(méi)有設(shè)置user agent也很容易被屏蔽掉，所以要對(duì)請(qǐng)求頭設(shè)置user agent。

在項(xiàng)目根目錄下新建user_agent_middlewares.py文件，在文件中定義UserAgentMiddleware類，繼承了UserAgentMiddleware類。在UserAgentMiddleware中聲明user_agent_list，存放一些常用的user agent，然后重寫(xiě)process_request方法，在user_agent_list中隨機(jī)選取user agent寫(xiě)入請(qǐng)求頭中。

車(chē)系、車(chē)型爬蟲(chóng)

車(chē)系爬蟲(chóng)與上邊的品牌爬蟲(chóng)類似，實(shí)現(xiàn)在spiders/series_spider.py中。

車(chē)型爬蟲(chóng)稍微復(fù)雜一些，實(shí)現(xiàn)在spiders/model_spider.py中。車(chē)型爬蟲(chóng)要從頁(yè)面中解析出車(chē)型數(shù)據(jù)，同時(shí)要解析出更多的URL添加到請(qǐng)求隊(duì)列中。而且，車(chē)型爬蟲(chóng)爬取的頁(yè)面并不像品牌數(shù)據(jù)頁(yè)面那么規(guī)整，所以要根據(jù)URL的特征以及頁(yè)面中的特征來(lái)調(diào)整解析策略。因此在這里用到了CrawlSpider和Rules，具體參照Spider文檔。

總結(jié)

以上就實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的汽車(chē)之家的車(chē)型數(shù)據(jù)爬蟲(chóng)，其中用到了scrapy中的部分元素，當(dāng)然還有很多元素沒(méi)有涉及到，不過(guò)對(duì)于一個(gè)簡(jiǎn)單爬蟲(chóng)來(lái)說(shuō)足矣。

Tip

在用xpath解析頁(yè)面的時(shí)候，寫(xiě)出來(lái)的xpath語(yǔ)句很可能與預(yù)期不符，而且調(diào)試起來(lái)很麻煩，我是用以下方式來(lái)提高效率的：

使用chrome上的XPath Helper插件。安裝好插件，打開(kāi)目標(biāo)頁(yè)面，按command+shift+x（mac版的快捷鍵）打開(kāi)插件面板，在面板里輸入xpath語(yǔ)句，就能看到取到的結(jié)果了：

使用scrapy shell調(diào)試。在工程目錄下執(zhí)行scrapy shell http://www.xxxxx.xx，之后就會(huì)進(jìn)入python的交互終端，這時(shí)就可以進(jìn)行調(diào)試了。執(zhí)行print response.xpath('xxxxx')來(lái)驗(yàn)證xpath語(yǔ)句是否符合預(yù)期。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

瀏覽器

瀏覽器

+關(guān)注

關(guān)注
1

文章
1016

瀏覽量
35281
URL

URL

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
15313
python

python

+關(guān)注

關(guān)注
56

文章
4783

瀏覽量
84473

原文標(biāo)題：Python神技能 | 使用爬蟲(chóng)獲取汽車(chē)之家全車(chē)型數(shù)據(jù)

文章出處：【微信號(hào)：magedu-Linux，微信公眾號(hào)：馬哥Linux運(yùn)維】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

Python數(shù)據(jù)爬蟲(chóng)學(xué)習(xí)內(nèi)容

，利用爬蟲(chóng)，我們可以解決部分數(shù)據(jù)問(wèn)題，那么，如何學(xué)習(xí)Python數(shù)據(jù)爬蟲(chóng)能？1.學(xué)習(xí)Python

發(fā)表于 05-09 17:25

Python爬蟲(chóng)與Web開(kāi)發(fā)庫(kù)盤(pán)點(diǎn)

Python爬蟲(chóng)和Web開(kāi)發(fā)均是與網(wǎng)頁(yè)相關(guān)的知識(shí)技能，無(wú)論是自己搭建的網(wǎng)站還是爬蟲(chóng)爬去別人的網(wǎng)站，都離不開(kāi)相應(yīng)的Python庫(kù)，以下是常用的Pyth

發(fā)表于 05-10 15:21

Python爬蟲(chóng)初學(xué)者需要準(zhǔn)備什么？

，想從事這方面的工作，需掌握以下知識(shí)：1. 學(xué)習(xí)Python基礎(chǔ)知識(shí)并實(shí)現(xiàn)基本的爬蟲(chóng)過(guò)程一般獲取數(shù)據(jù)的過(guò)程都是按照發(fā)送請(qǐng)求-獲得頁(yè)面反饋-解析并且存儲(chǔ)

發(fā)表于 06-20 17:14

Python爬蟲(chóng)全國(guó)大學(xué)招生的生源數(shù)據(jù)分析

Python爬蟲(chóng)：全國(guó)大學(xué)招生信息（二）：生源數(shù)據(jù)分析(matplotlib)

發(fā)表于 03-09 10:20

0基礎(chǔ)入門(mén)Python爬蟲(chóng)實(shí)戰(zhàn)課

大數(shù)據(jù)時(shí)代，有兩種技能可以給自己增加競(jìng)爭(zhēng)優(yōu)勢(shì)。一種是數(shù)據(jù)分析，旨在挖掘數(shù)據(jù)的價(jià)值，做出最佳決策；另一種是數(shù)據(jù)獲取，即

發(fā)表于 07-25 09:28

python基礎(chǔ)語(yǔ)法及流程控制

爬蟲(chóng)復(fù)習(xí)1.python基礎(chǔ)python基礎(chǔ)語(yǔ)法流程控制函數(shù)封裝2.防爬措施整體防爬User-AgentrefererIP代理池Cookie代理池各自防爬數(shù)據(jù)內(nèi)部動(dòng)態(tài)加載網(wǎng)頁(yè)設(shè)置

發(fā)表于 08-31 07:41

Python爬蟲(chóng)簡(jiǎn)介與軟件配置

腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲(chóng)。爬蟲(chóng)從初始網(wǎng)頁(yè)的url開(kāi)始, 不斷從當(dāng)前頁(yè)面抽取新的url放入隊(duì)列。直到滿足系統(tǒng)給定的停止條件才停止。可以為搜素引擎從互聯(lián)網(wǎng)中下載網(wǎng)頁(yè)數(shù)據(jù)，是搜素引擎的重要組成部分。2. 軟件配置

發(fā)表于 01-11 06:32

python網(wǎng)絡(luò)爬蟲(chóng)概述

提交一些關(guān)鍵字才能獲取的Web頁(yè)面，如登錄或注冊(cè)后訪問(wèn)的頁(yè)面。應(yīng)用場(chǎng)景爬蟲(chóng)技術(shù)在科學(xué)研究、Web安全、產(chǎn)品研發(fā)、輿情監(jiān)控等領(lǐng)域可以做很多事情。在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、圖像處理等科學(xué)研究領(lǐng)域，如果沒(méi)有

發(fā)表于 03-21 16:51

2015最全車(chē)型汽車(chē)OBD位置大全

2015最全車(chē)型汽車(chē)OBD位置大全，我還上傳好多相關(guān)資源，感興趣的小伙伴們可以去我上傳的資料頁(yè)看看哦。

發(fā)表于 08-05 14:20 ?60次下載

python爬蟲(chóng)入門(mén)教程之python爬蟲(chóng)視頻教程分布式爬蟲(chóng)打造搜索引擎

本文檔的主要內(nèi)容詳細(xì)介紹的是python爬蟲(chóng)入門(mén)教程之python爬蟲(chóng)視頻教程分布式爬蟲(chóng)打造搜索引擎

發(fā)表于 08-28 15:32 ?29次下載

爬蟲(chóng)是如何實(shí)現(xiàn)數(shù)據(jù)的獲取爬蟲(chóng)程序如何實(shí)現(xiàn)

進(jìn)入大數(shù)據(jù)時(shí)代，爬蟲(chóng)技術(shù)越來(lái)越重要，因?yàn)樗?b class='flag-5'>獲取數(shù)據(jù)的一個(gè)重要手段，是大數(shù)據(jù)和云計(jì)算的基礎(chǔ)。那么，爬蟲(chóng)

發(fā)表于 01-02 16:30 ?10次下載

Python爬蟲(chóng)：使用哪種協(xié)議的代理IP最佳？

網(wǎng)絡(luò)大數(shù)據(jù)要抓取信息，大多需要經(jīng)過(guò)python爬蟲(chóng)工作，爬蟲(chóng)能夠幫助我們將頁(yè)面的信息抓取下來(lái)。

發(fā)表于 06-28 16:25 ?1938次閱讀

用Python寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)

用Python寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)的方法說(shuō)明。

發(fā)表于 06-01 11:55 ?21次下載

如何看待Python爬蟲(chóng)的合法性？

Python爬蟲(chóng)是一種自動(dòng)化程序，可以從互聯(lián)網(wǎng)上獲取信息并提取數(shù)據(jù)。通過(guò)模擬網(wǎng)頁(yè)瀏覽器的行為，爬蟲(chóng)可以訪問(wèn)網(wǎng)頁(yè)、抓取

發(fā)表于 11-14 10:35 ?590次閱讀

網(wǎng)絡(luò)爬蟲(chóng),Python和數(shù)據(jù)分析

電子發(fā)燒友網(wǎng)站提供《網(wǎng)絡(luò)爬蟲(chóng),Python和數(shù)據(jù)分析.pdf》資料免費(fèi)下載

發(fā)表于 07-13 09:27 ?1次下載

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

如何使用Python爬蟲(chóng)獲取汽車(chē)之家全車(chē)型數(shù)據(jù)

評(píng)論

Python數(shù)據(jù)爬蟲(chóng)學(xué)習(xí)內(nèi)容

Python爬蟲(chóng)與Web開(kāi)發(fā)庫(kù)盤(pán)點(diǎn)

Python爬蟲(chóng)初學(xué)者需要準(zhǔn)備什么？

Python爬蟲(chóng)全國(guó)大學(xué)招生的生源數(shù)據(jù)分析

0基礎(chǔ)入門(mén)Python爬蟲(chóng)實(shí)戰(zhàn)課

python基礎(chǔ)語(yǔ)法及流程控制

Python爬蟲(chóng)簡(jiǎn)介與軟件配置

python網(wǎng)絡(luò)爬蟲(chóng)概述

2015最全車(chē)型汽車(chē)OBD位置大全

python爬蟲(chóng)入門(mén)教程之python爬蟲(chóng)視頻教程分布式爬蟲(chóng)打造搜索引擎

爬蟲(chóng)是如何實(shí)現(xiàn)數(shù)據(jù)的獲取爬蟲(chóng)程序如何實(shí)現(xiàn)

Python爬蟲(chóng)：使用哪種協(xié)議的代理IP最佳？

用Python寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)

如何看待Python爬蟲(chóng)的合法性？

網(wǎng)絡(luò)爬蟲(chóng),Python和數(shù)據(jù)分析