最近想在工作相關(guān)的項(xiàng)目上做技術(shù)改進(jìn),需要全而準(zhǔn)的車(chē)型數(shù)據(jù),尋尋覓覓而不得,所以就只能自己動(dòng)手豐衣足食,到網(wǎng)上獲(竊)得(取)數(shù)據(jù)了。
汽車(chē)之家是大家公認(rèn)的數(shù)據(jù)做的比較好的汽車(chē)網(wǎng)站,所以就用它吧。(感謝汽車(chē)之家的大大們這么用心地做數(shù)據(jù),仰慕)
俗話說(shuō)的好,“十爬蟲(chóng)九python”,作為一只java狗,我顫顫巍巍地拿起了python想要感受一下scrapy的強(qiáng)大。。。
在寫(xiě)這個(gè)爬蟲(chóng)之前,我用urllib2,BeautifulSoup寫(xiě)了一個(gè)版本,不過(guò)效率太差,而且還有內(nèi)存溢出的問(wèn)題,作為python小白感覺(jué)很無(wú)力,所以用scrapy才是正道。
嗯,開(kāi)搞。
準(zhǔn)備工作
安裝python,版本是2.7
安裝scrapy模塊, 版本是1.4.0
參考
汽車(chē)之家車(chē)型數(shù)據(jù)爬蟲(chóng)[https://github.com/LittleLory/codePool/tree/master/python/autohome_spider]:這是我工程的代碼,以下內(nèi)容需要參照著代碼來(lái)理解,就不貼代碼在這里了。
Scrapy中文文檔:這是Scrapy的中文文檔,具體細(xì)節(jié)可以參照文檔。感謝Summer同學(xué)的翻譯。
Xpath教程:解析頁(yè)面數(shù)據(jù)要用到xpath的語(yǔ)法,簡(jiǎn)單了解一下,在做的過(guò)程中遇到問(wèn)題去查一下就可以了。
初始化工程
scrapy工程的初始化很方便,在shell中的指定目錄下執(zhí)行scrapy start startproject 項(xiàng)目名稱,就自動(dòng)化生成了。
執(zhí)行這步的時(shí)候遇到了一個(gè)問(wèn)題,拋出了異常"TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1",解決方法是執(zhí)行sudo pip install twisted==13.1.0,應(yīng)該是依賴庫(kù)版本不兼容。
目錄結(jié)構(gòu)
工程初始化后,scrapy中的各個(gè)元素就被構(gòu)建好了,不過(guò)構(gòu)建出來(lái)的是一副空殼,需要我們往里邊寫(xiě)入我們的爬蟲(chóng)邏輯。
初始化后的目錄結(jié)構(gòu)是這樣的:
spiders:爬蟲(chóng)目錄,爬蟲(chóng)的爬取邏輯就放在個(gè)目錄下邊
items.py:數(shù)據(jù)實(shí)體類,在這里定義我們爬到的數(shù)據(jù)結(jié)構(gòu)
middlewares.py:爬蟲(chóng)中間件(我自己翻譯的哈),在這里定義爬取前、爬取后需要處理的邏輯
pipelines.py:數(shù)據(jù)管道,爬取后的數(shù)據(jù)實(shí)體會(huì)經(jīng)過(guò)數(shù)據(jù)管道的處理
settings.py:配置文件,可以在這里配置爬蟲(chóng)的爬取速度,配置中間件、管道是否開(kāi)啟和先后順序,配置數(shù)據(jù)輸出的格式等。
了解過(guò)這些文件的作用后就可以開(kāi)始寫(xiě)爬蟲(chóng)了。
開(kāi)始吧!
首先,確定要爬取的目標(biāo)數(shù)據(jù)。
我的目標(biāo)是獲取汽車(chē)的品牌、車(chē)系、車(chē)型數(shù)據(jù),先從品牌開(kāi)始。
在汽車(chē)之家的頁(yè)面中尋覓一番后,找到了一個(gè)爬蟲(chóng)的切入點(diǎn),汽車(chē)之家車(chē)型大全。這個(gè)頁(yè)面里有所有品牌的數(shù)據(jù),正是我的目標(biāo)。不過(guò)在觀察的過(guò)程中發(fā)現(xiàn),這個(gè)頁(yè)面里的品牌數(shù)據(jù)是在頁(yè)面向下滾動(dòng)的過(guò)程中延遲加載的,這樣我們通過(guò)請(qǐng)求這個(gè)頁(yè)面不能獲取到延遲加載的那部分?jǐn)?shù)據(jù)。不過(guò)不要慌,看一下延遲加載的方式是什么樣的。
打開(kāi)瀏覽器控制臺(tái)的網(wǎng)絡(luò)請(qǐng)求面板,滾動(dòng)頁(yè)面來(lái)觸發(fā)延遲加載,發(fā)現(xiàn)瀏覽器發(fā)送了一個(gè)異步請(qǐng)求:
復(fù)制請(qǐng)求的URL看看:
http://www.autohome.com.cn/grade/carhtml/B.html
http://www.autohome.com.cn/grade/carhtml/C.html
http://www.autohome.com.cn/grade/carhtml/D.html
找到規(guī)律了,每一次加載的URL,都只是改變了對(duì)應(yīng)的字母,所以對(duì)A到Z分別請(qǐng)求一次就取到了所有的品牌數(shù)據(jù)。
打開(kāi)http://www.autohome.com.cn/grade/carhtml/B.html看下,發(fā)現(xiàn)頁(yè)面的數(shù)據(jù)很規(guī)整,是按照品牌-廠商-車(chē)系的層級(jí)組織的。嗯,正合我意,那就開(kāi)爬吧。
編寫(xiě)Spider
在spiders目錄下邊,新建一個(gè)brand_spider.py文件,在文件中定義BrandSpider類,這個(gè)類繼承了scrapy.Spider類,這就是scrapy的Spider類。在BrandSpider中,需要聲明name變量,這是這個(gè)爬蟲(chóng)的ID;還需要聲明start_urls,這是爬蟲(chóng)的起點(diǎn)鏈接;再定義一個(gè)parse方法,里面實(shí)現(xiàn)爬蟲(chóng)的邏輯。
parse方法的入?yún)⒅校瑀esponse就是對(duì)start_urls中的鏈接的請(qǐng)求響應(yīng)數(shù)據(jù),我們要爬取的品牌數(shù)據(jù)就在這里面,我們需要從response中提取出來(lái)。從response提取數(shù)據(jù)需要使用xpath語(yǔ)法,參考上邊的xpath教程。
提取數(shù)據(jù)之前,需要先給品牌數(shù)據(jù)定義一個(gè)實(shí)體類,因?yàn)樾枰哑放茢?shù)據(jù)存到數(shù)據(jù)實(shí)體中并落地到磁盤(pán)。在items.py文件中定義一個(gè)BrandItem類,這個(gè)類繼承了scrapy.Item類,類中聲明了爬取到的、要落地的品牌相關(guān)數(shù)據(jù),這就是scrapy的Item類。
定義好品牌實(shí)體后,在parse方法中聲明一個(gè)BrandItem實(shí)例,然后通過(guò)reponse.xpath方法取到想要的品牌ID、品牌url、品牌名稱、圖標(biāo)url等數(shù)據(jù),并設(shè)置到BrandItem實(shí)例中,最后通過(guò)yield來(lái)聚合爬取到的各個(gè)品牌數(shù)據(jù)并返回,返回的數(shù)據(jù)會(huì)進(jìn)入pipeline。
編寫(xiě)Pipeline
爬取到的數(shù)據(jù)接著被pipeline.py文件中定義的Pipeline類處理,這個(gè)類通常是對(duì)傳入的Item實(shí)體做數(shù)據(jù)的清洗、排重等工作,可以定義多個(gè)Pipeline,依次對(duì)Item處理。由于暫時(shí)沒(méi)有這方面的需要,就不改寫(xiě)這個(gè)文件,保持默認(rèn)狀態(tài)就好。經(jīng)過(guò)pipeline的處理后,數(shù)據(jù)進(jìn)入數(shù)據(jù)集。
輸出csv格式數(shù)據(jù)
對(duì)于爬取到的車(chē)型數(shù)據(jù),我想以csv的格式輸出,并且輸出到指定目錄下,此時(shí)需要修改settings.py文件。
在settings.py中添加FEED_FORMAT = 'csv'和FEED_URI = 'data/%(name)s_%(time)s.csv'兩項(xiàng),目的是指定輸出格式為csv,輸出到data目錄下,以”爬蟲(chóng)名稱_爬取時(shí)間.csv“格式命名。
執(zhí)行爬蟲(chóng)
品牌數(shù)據(jù)的爬蟲(chóng)編寫(xiě)完成了,在項(xiàng)目根目錄下執(zhí)行scrapy crawl brand,不出意外的話,在執(zhí)行了brand爬蟲(chóng)后,會(huì)在data目錄下出現(xiàn)一個(gè)新的csv文件,并且裝滿了品牌數(shù)據(jù)。
小心被屏蔽
不過(guò)需要注意一個(gè)問(wèn)題,就是當(dāng)爬蟲(chóng)高頻地請(qǐng)求網(wǎng)站接口的時(shí)候,有可能會(huì)被網(wǎng)站識(shí)別出來(lái)并且屏蔽掉,因?yàn)樘哳l的請(qǐng)求會(huì)對(duì)網(wǎng)站的服務(wù)器造成壓力,所以需要對(duì)爬蟲(chóng)限速。
在settings.py中添加DOWNLOAD_DELAY = 3,限制爬蟲(chóng)的請(qǐng)求頻率為平均3秒一次。
另外,如果爬蟲(chóng)發(fā)送的請(qǐng)求頭中沒(méi)有設(shè)置user agent也很容易被屏蔽掉,所以要對(duì)請(qǐng)求頭設(shè)置user agent。
在項(xiàng)目根目錄下新建user_agent_middlewares.py文件,在文件中定義UserAgentMiddleware類,繼承了UserAgentMiddleware類。在UserAgentMiddleware中聲明user_agent_list,存放一些常用的user agent,然后重寫(xiě)process_request方法,在user_agent_list中隨機(jī)選取user agent寫(xiě)入請(qǐng)求頭中。
車(chē)系、車(chē)型爬蟲(chóng)
車(chē)系爬蟲(chóng)與上邊的品牌爬蟲(chóng)類似,實(shí)現(xiàn)在spiders/series_spider.py中。
車(chē)型爬蟲(chóng)稍微復(fù)雜一些,實(shí)現(xiàn)在spiders/model_spider.py中。車(chē)型爬蟲(chóng)要從頁(yè)面中解析出車(chē)型數(shù)據(jù),同時(shí)要解析出更多的URL添加到請(qǐng)求隊(duì)列中。而且,車(chē)型爬蟲(chóng)爬取的頁(yè)面并不像品牌數(shù)據(jù)頁(yè)面那么規(guī)整,所以要根據(jù)URL的特征以及頁(yè)面中的特征來(lái)調(diào)整解析策略。因此在這里用到了CrawlSpider和Rules,具體參照Spider文檔。
總結(jié)
以上就實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的汽車(chē)之家的車(chē)型數(shù)據(jù)爬蟲(chóng),其中用到了scrapy中的部分元素,當(dāng)然還有很多元素沒(méi)有涉及到,不過(guò)對(duì)于一個(gè)簡(jiǎn)單爬蟲(chóng)來(lái)說(shuō)足矣。
Tip
在用xpath解析頁(yè)面的時(shí)候,寫(xiě)出來(lái)的xpath語(yǔ)句很可能與預(yù)期不符,而且調(diào)試起來(lái)很麻煩,我是用以下方式來(lái)提高效率的:
使用chrome上的XPath Helper插件。安裝好插件,打開(kāi)目標(biāo)頁(yè)面,按command+shift+x(mac版的快捷鍵)打開(kāi)插件面板,在面板里輸入xpath語(yǔ)句,就能看到取到的結(jié)果了:
使用scrapy shell調(diào)試。在工程目錄下執(zhí)行scrapy shell http://www.xxxxx.xx,之后就會(huì)進(jìn)入python的交互終端,這時(shí)就可以進(jìn)行調(diào)試了。執(zhí)行print response.xpath('xxxxx')來(lái)驗(yàn)證xpath語(yǔ)句是否符合預(yù)期。
-
瀏覽器
+關(guān)注
關(guān)注
1文章
1016瀏覽量
35281 -
URL
+關(guān)注
關(guān)注
0文章
139瀏覽量
15313 -
python
+關(guān)注
關(guān)注
56文章
4783瀏覽量
84473
原文標(biāo)題:Python神技能 | 使用爬蟲(chóng)獲取汽車(chē)之家全車(chē)型數(shù)據(jù)
文章出處:【微信號(hào):magedu-Linux,微信公眾號(hào):馬哥Linux運(yùn)維】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論