精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一個把爬蟲下載器和解析器聯合在一起的庫

馬哥Linux運維 ? 來源:未知 ? 作者:李倩 ? 2018-05-13 10:56 ? 次閱讀

幾乎所有玩爬蟲的人,一定會用requests庫,這個庫的作者是大名鼎鼎的Kenneth Reitz 。牛逼的一塌糊涂,最近我瀏覽它的網站,發現他又出新招,一個把爬蟲下載器和解析器聯合在一起的庫,對爬蟲界又是一大福音啊,一起來學習一下吧.

01

Requests-Html

這個庫它是requests庫的姊妹篇,一般來說我們爬蟲,我會直接在下載完網頁之后,再去安裝一些解析庫來解析網頁,解析庫又有很多種,增加了我們的學習成本。

有沒有一種庫把這兩者融合在一起,并且方便的提供給我們用。但是這個庫直接內置了html網頁的解析,相當于是自帶酒水,非常方便,號稱是給人類用的網頁解析庫。

目前這個庫已經收獲了7500個贊,323fork,相當牛逼!

02

這個庫里都有啥

我們只需要用pip 直接install 即可。pip install requests-html,這個庫它內置了requests庫,pyquery庫,bs庫,還有一些編碼的庫。最牛的是,它竟然把隨機代理庫fake-useragent也集成進來了!

# what packages are required for this module to be executed?

都內置了哪些牛逼的功能:

Full JavaScript support!

CSS Selectors(a.k.a jQuery-style, thanks to PyQuery).

XPath Selectors, for the faint at heart.

Mocked user-agent (like a real web browser).

Automatic following of redirects.

Connection–pooling and cookie persistence.

The Requests experience you know and love, with magical parsing abilities.

03

如何用這個庫

1).比如我們爬取一個Python官網網頁

>>/about/quotes//about/success/#software-developmenthttps://mail.python.org/mailman/listinfo/python-dev/downloads/release/python-365//community/logos//community/sigs///jobs.python.orghttp://tornadoweb.orghttps://github.com/python/pythondotorg/issues/about/gettingstarted/...

簡單吧,我們也不需要管什么http的請求頭,也不需要管什么cookie,更不需要管代理angent.直接初始化一個HTMLSession()類的對象,就可以簡簡單單的解析網頁的內容。一邊輕松喝杯茶,一邊直接調用r對象里面的方法,比如提取所有網頁里面的超鏈接。

2).看一下HTMLSession對象里面都有哪些好的方法:

print ([e for e in dir(r.html) if not e.startswith('_')])>>['absolute_links', 'add_next_symbol', 'base_url', 'default_encoding', 'element', 'encoding', 'find', 'full_text', 'html', 'links', 'lxml', 'next_symbol', 'page', 'pq', 'raw_html', 'render', 'search', 'search_all','session', 'skip_anchors', 'text', 'url', 'xpath']

里面有很多有用的功能函數,比如find,search,search_all功能,非常方便!上邊我們解析了Python官網,接著我們解析官網里面的about :

想要找到about元素里面的文本內容,我們只用find一行代碼就可以搞定搞定

about = r.html.find('#about', first=True)print (about.text)>>About Applications Quotes Getting Started Help Python Brochure

#about 是表示網頁審查里面id為about (css方式提取),first置為true表示,如果取的元素是一個list,我們只返回第一個元素。

想讀取about里面的attr:

print (about.attrs)>>{'id': 'about', 'class': ('tier-1', 'element-1'), 'aria-haspopup': 'true'}

想讀取about里面的鏈接:

about.find('a')>>

最牛逼的是這About對象已經把各種解析庫的對象句柄都完成了初始化,比如大名鼎鼎的pyquery庫的解析(css解析器),lxml庫的解析。

直接用doc=about.pq,這里的doc其實就是把css解析的內容解析出來,我們可以非常方便的處理.

整個requests_html庫相當于一個中間層,把復雜的解析網頁的這些繁瑣的步驟,再次的封裝了,里面還有牛逼的功能,比如支持js頁面的動態解析,內置了強大的chromium引擎和異步的解析session(AsyncHTMLSession),這個里面用的是Python非常牛逼的Asyncio庫。

總之有了這個requests_html,媽媽再也不用擔心我學不會爬蟲了。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 函數
    +關注

    關注

    3

    文章

    4306

    瀏覽量

    62431
  • python
    +關注

    關注

    56

    文章

    4782

    瀏覽量

    84455

原文標題:爬蟲大神,又出新招

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    想學習下如何程序合在一起

    在下新手,剛入道,想學習下如何程序合在一起?在keil里面操作!兩程序融合需要怎樣操作呢?請前輩們指點!謝謝!
    發表于 08-02 14:56

    怎么程序湊合在一起

    奮斗了個把星期,弄會了chaoshengbo蔽障和藍牙小車,但是不知道怎么這兩程序湊合在一起,想請大神搭救一把
    發表于 09-17 21:33

    怎么主界面和子VI結合在一起

    就是做一個電梯的界面,然后我做好了一個個的功能的子VI,但是怎么調用使得運行的時候只出現電梯界面,然后通過電梯界面的按鈕來調用子VI的功能,反正就是不知道怎么主界面和子VI結合在一起
    發表于 08-24 15:26

    幾個單獨的程序組合在一起

    怎樣幾個個單獨的程序組合在一起,我現在在做環境檢測儀,我可不可以先把溫度,濕度,噪聲等程序先單獨做,然后它們組合在一起,可以嗎,怎么組合,求大神告知
    發表于 03-23 14:22

    AD 如何屬性的焊盤組合在一起

    AD如何屬性的焊盤組合在一起
    發表于 11-16 11:43

    怎樣講maxwell與 Simplorer聯合在一起用?

    怎樣講maxwell與 Simplorer聯合在一起用?
    發表于 11-16 21:02

    請問ISE和Mircoblaze是如何結合在一起的?

    大家好,有人可以向我解釋下ISE和Mircoblaze是如何結合在一起的嗎?目前我已經在ISE中用VHDL編寫了程序,我希望在我的設計中添加
    發表于 02-19 10:59

    請問怎么藍牙模塊實驗和GPS模塊實驗整合在一起

    現在已經藍牙模塊實驗、DS18B20實驗和DHT11實驗成功整合在一起了。現在就差GPS模塊了。請問GPS模塊要怎么接?我試過接在串口1,但是手機收不到GPS信息。
    發表于 03-03 23:34

    labview中模糊控制和pid是怎么結合在一起

    labview中模糊控制和pid是怎么結合在一起的?求高手解答,有簡單的模糊控制和pid結合在一起的vi文件最好,
    發表于 03-13 08:04

    labview 中如何模糊控制和pid結合在一起呢?

    labview中模糊控制怎么導入?并且和pid結合在一起呢?有沒有相關的VI做參考,求幫助,抱拳
    發表于 03-14 10:57

    USAT和USB BooLoad能結合在一起

    嗨,有沒有可能將USAT和USB BooLoad結合在一起,以便它可以從任電纜獲得固件?謝謝
    發表于 04-24 08:39

    51單片機中,如何兩個數組的數合在一起然后給變量?

    51單片機中,怎么兩個數組的數合在一起然后給變量 比如:char a[5]={01234} char b[5]={56789} char c; 怎么a[4]的數和b[3]的數
    發表于 10-31 07:34

    不同容量的電池組合在一起使用會出現什么問題?

    不同容量的電池組合在一起使用會出現什么問題?       如果將不同容量或新舊電池混在一起使用,有可能出現漏液,
    發表于 11-13 15:20 ?3371次閱讀

    不同容量的電池組合在一起使用會出現什么問題?

    不同容量的電池組合在一起使用會出現什么問題? 當不同容量的電池組合在一起使用時,會產生系列問題。這些問題不僅會影響電池組的性能,還可能導致電池組、電子設備和人員的安全受到威脅。因此,電池組合使用之
    的頭像 發表于 11-06 10:49 ?2507次閱讀

    將5G信號鏈與電平轉換結合在一起

    電子發燒友網站提供《將5G信號鏈與電平轉換結合在一起.pdf》資料免費下載
    發表于 09-18 14:49 ?0次下載
    將5G信號鏈與電平轉換結<b class='flag-5'>合在一起</b>