精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Python 一個(gè)超快的公共情報(bào)搜集爬蟲

科技綠洲 ? 來源:Python實(shí)用寶典 ? 作者:Python實(shí)用寶典 ? 2023-11-03 15:16 ? 次閱讀

Photon是一個(gè)由s0md3v開源的情報(bào)搜集爬蟲,其主要功能有:

1.爬取鏈接(內(nèi)鏈、外鏈)。
2.爬取帶參數(shù)的鏈接,如(pythondict.com/test?id=2)。
3.文件(pdf, png, xml)。
4.密鑰(在前端代碼中不小心被釋放出來的)。
5.js文件和Endpoint(spring中比較重要的監(jiān)視器)
6.匹配自定義正則表達(dá)式的字符串。
7.子域名和DNS相關(guān)數(shù)據(jù)。

你可以用它來干很多事,比如爬圖片、找漏洞、找子域名、爬數(shù)據(jù)等等。而且提取出來的數(shù)據(jù)格式非常整潔:

圖片

不僅如此,它甚至支持json格式 ,僅需要在輸入命令的時(shí)候加上json參數(shù):

python photon.py -u "http://example.com" --export=json

為什么能用來做情報(bào)搜集呢?耐心往后看哦。

1.下載安裝

你可以上photon的github下載完整項(xiàng)目:
https://github.com/s0md3v/Photon

或者關(guān)注下方Python實(shí)用寶典公眾號(hào)在后臺(tái)回復(fù)photon獲得國(guó)內(nèi)網(wǎng)盤下載地址。下載后解壓到你想要使用的地方。如果你還沒有安裝Python,建議閱讀這篇文章:超詳細(xì)Python安裝指南,進(jìn)行Python的安裝。

安裝完P(guān)ython后,打開CMD(windows)/Terminal(macOS),下面簡(jiǎn)稱為終端,進(jìn)入你剛解壓的文件夾,然后輸入以下命令安裝Photon的依賴:

pip install -r requirements.txt

如圖所示:

圖片

2.簡(jiǎn)單使用

注意,使用的時(shí)候要在Photon文件夾下。比如我們隨便提取一個(gè)網(wǎng)站的URL試一下,在終端輸入以下命令:

python photon.py -u https://bk.tencent.com/

結(jié)果如下:

圖片

它會(huì)在當(dāng)前目錄下產(chǎn)生一個(gè)你測(cè)試的域名的文件夾,比如在我這里是 bk.tencent.com:

圖片

嘻嘻,讓我們看看里面有什么東西,有沒有程序員留下的小彩蛋,打開external.txt,這是該網(wǎng)站的外鏈的存放位置。可以看到,這里不僅僅是只有網(wǎng)站頁(yè)面,連CDN文件地址都會(huì)放在這里,所以external可能是個(gè)藏寶庫(kù)哦。

圖片

還能一下找出該網(wǎng)站上鏈接的全部開源項(xiàng)目:

圖片

3.擴(kuò)展

這個(gè)項(xiàng)目的價(jià)值,不僅在于能夠快速拉取你想要得到的數(shù)據(jù),還在于能夠構(gòu)建一個(gè)牛逼轟轟的 情報(bào)系統(tǒng) (如果你技術(shù)夠強(qiáng)的話)。因?yàn)樗悄懿粩嘌由煜氯サ模热鐝耐怄湷霭l(fā),你能找到很多和這個(gè)網(wǎng)站相關(guān)的訊息:

圖片

相比于搜索引擎搜索的結(jié)果,實(shí)際上這些信息更符合情報(bào)的要求。而且 不是所有的信息都能在搜索引擎搜索得到 ,而通過這個(gè)Photon,你可以順藤摸瓜找到那些隱藏在互聯(lián)網(wǎng)世界的它們。

試想一下,如果你搜集了很多這樣的網(wǎng)站...然后用正則表達(dá)式搭建一個(gè)屬于你自己的搜索引擎,這樣的感覺是不是很棒?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 監(jiān)視器
    +關(guān)注

    關(guān)注

    1

    文章

    780

    瀏覽量

    33099
  • 參數(shù)
    +關(guān)注

    關(guān)注

    11

    文章

    1785

    瀏覽量

    32086
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4748

    瀏覽量

    68355
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4782

    瀏覽量

    84453
  • 爬蟲
    +關(guān)注

    關(guān)注

    0

    文章

    82

    瀏覽量

    6840
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Python數(shù)據(jù)爬蟲學(xué)習(xí)內(nèi)容

    ,利用爬蟲,我們可以解決部分?jǐn)?shù)據(jù)問題,那么,如何學(xué)習(xí)Python數(shù)據(jù)爬蟲能?1.學(xué)習(xí)Python基礎(chǔ)知識(shí)并實(shí)現(xiàn)基本的爬蟲過程
    發(fā)表于 05-09 17:25

    Python爬蟲與Web開發(fā)庫(kù)盤點(diǎn)

    ,高層次的web抓取網(wǎng)頁(yè),并從web站點(diǎn)的頁(yè)面中提取結(jié)構(gòu)化的數(shù)據(jù)Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測(cè)和自動(dòng)化測(cè)試。最爽的就是它是個(gè)框架,任何人都可以根據(jù)需求方便的修改,里面有很多類型爬蟲的基
    發(fā)表于 05-10 15:21

    Python 爬蟲:8 個(gè)常用的爬蟲技巧總結(jié)!

    的話,就需要多線程了,這里給個(gè)簡(jiǎn)單的線程池模板 這個(gè)程序只是簡(jiǎn)單地打印了1-10,但是可以看出是并發(fā)的。雖然說python的多線程很雞肋,但是對(duì)于爬蟲這種網(wǎng)絡(luò)頻繁型,還是能定程度提高
    發(fā)表于 01-02 14:37

    0基礎(chǔ)入門Python爬蟲實(shí)戰(zhàn)課

    學(xué)習(xí)資料良莠不齊爬蟲門實(shí)踐性的技能,沒有實(shí)戰(zhàn)的課程都是騙人的!所以這節(jié)Python爬蟲實(shí)戰(zhàn)課,將幫到你!課程從0基礎(chǔ)入門開始,受眾人群廣泛:如畢業(yè)大學(xué)生、轉(zhuǎn)行人群、對(duì)
    發(fā)表于 07-25 09:28

    Python爬蟲簡(jiǎn)介與軟件配置

    Python爬蟲練習(xí)爬蟲簡(jiǎn)介1. 介紹2. 軟件配置二、爬取南陽(yáng)理工OJ題目三、爬取學(xué)校信息通知四、總結(jié)五、參考
    發(fā)表于 01-11 06:32

    python網(wǎng)絡(luò)爬蟲概述

    、MySQL、MongoDB、Redis …關(guān)于爬蟲的合法性幾乎每個(gè)網(wǎng)站都有個(gè)名為robots.txt的文檔,當(dāng)然也有有些網(wǎng)站沒有設(shè)定。對(duì)于沒有設(shè)定robots.txt的網(wǎng)站可以通過網(wǎng)絡(luò)爬蟲
    發(fā)表于 03-21 16:51

    Python 個(gè)公共情報(bào)搜集爬蟲——Photon

    Photon是個(gè)由s0md3v開源的情報(bào)搜集爬蟲,其主要功能有:1.爬取鏈接(內(nèi)鏈、外鏈)。2.爬取帶參數(shù)的鏈接,如(pythondict.com/test?id=2)。3.文件(p
    發(fā)表于 06-23 16:35

    完全自學(xué)指南Python爬蟲BeautifulSoup詳解

    完全自學(xué)指南Python爬蟲BeautifulSoup詳解
    發(fā)表于 09-07 08:55 ?39次下載
    完全自學(xué)指南<b class='flag-5'>Python</b><b class='flag-5'>爬蟲</b>BeautifulSoup詳解

    WebSpider——多個(gè)python爬蟲項(xiàng)目下載

    此文檔包含多個(gè)python爬蟲項(xiàng)目
    發(fā)表于 03-26 09:29 ?3次下載

    Python爬蟲8個(gè)常用的爬蟲技巧分析總結(jié)

    python也差不多年多了,python應(yīng)用最多的場(chǎng)景還是web快速開發(fā)、爬蟲、自動(dòng)化運(yùn)維:寫過簡(jiǎn)單網(wǎng)站、寫過自動(dòng)發(fā)帖腳本、寫過收發(fā)郵件腳本、寫過簡(jiǎn)單驗(yàn)證碼識(shí)別腳本。
    的頭像 發(fā)表于 08-18 11:45 ?5084次閱讀

    python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎

    本文檔的主要內(nèi)容詳細(xì)介紹的是python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎
    發(fā)表于 08-28 15:32 ?29次下載

    Python寫網(wǎng)絡(luò)爬蟲

    Python寫網(wǎng)絡(luò)爬蟲的方法說明。
    發(fā)表于 06-01 11:55 ?21次下載

    利用Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲實(shí)例

    利用 Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲實(shí)例2 實(shí)驗(yàn)環(huán)境python版本:3.3.5(2.7下報(bào)錯(cuò)
    發(fā)表于 02-24 11:05 ?14次下載

    Photon:個(gè)公共情報(bào)搜集爬蟲

    Photon是個(gè)由s0md3v開源的情報(bào)搜集爬蟲,其主要功能有: 1.爬取鏈接(內(nèi)鏈、外鏈)。 2.爬取帶參數(shù)的鏈接,如(pythondict.com/test?id=2)。 3.文
    的頭像 發(fā)表于 10-31 15:17 ?494次閱讀
    Photon:<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b><b class='flag-5'>超</b><b class='flag-5'>快</b>的<b class='flag-5'>公共</b><b class='flag-5'>情報(bào)搜集</b><b class='flag-5'>爬蟲</b>

    如何解決Python爬蟲中文亂碼問題?Python爬蟲中文亂碼的解決方法

    Python爬蟲中文亂碼問題。 、了解字符編碼 在解決亂碼問題之前,我們首先需要了解些基本的字符編碼知識(shí)。常見的字符編碼有ASCII、UTF-8和GBK等。 1. ASCII:是
    的頭像 發(fā)表于 01-12 15:11 ?2191次閱讀