磁力鏈接
現在我們使用迅雷等工具下載資源的時候,基本上都只需要一個叫做磁力鏈接的東西就可以了,非常方便。
磁力鏈接是對等網絡中進行信息檢索和下載文檔的電腦程序。和基于“位置”連接的統一資源定位符不同,磁力鏈接是基于元數據文件內容,屬于統一資源名稱。也就是說,磁力鏈接不基于文檔的 IP 地址或定位符,而是在分布式數據庫中,通過散列函數值來識別、搜索來下載文檔。因為不依賴一個處于啟動狀態的主機來下載文檔,所以特別適用沒有中心服務器的對等網絡。
磁力鏈接格式類似于 :
magnet:?xt=urn:btih:E7FC73D9E20697C6C440203F5884EF52F9E4BD28
分解一下這個鏈接
magnet:協議名。
xt:exact topic 的縮寫,表示資源定位點。BTIH(BitTorrent Info Hash)表示哈希方法名,這里還可以使用 SHA1 和 MD5。這個值是文件的標識符,是不可缺少的。
一般來講,一個磁力鏈接只需要上面兩個參數即可找到唯一對應的資源。也有其他的可選參數提供更加詳細的信息。
dn:display name 的縮寫,表示向用戶顯示的文件名。
tr:tracker 的縮寫,表示 tracker 服務器的地址。
kt: 關鍵字,更籠統的搜索,指定搜索關鍵字而不是特定文件。
mt:文件列表,鏈接到一個包含磁力鏈接的元文件 (MAGMA - MAGnet MAnifest)。
種子/DHT
通過磁力就可以獲取種子文件從而進行下載,這跟直接使用種子下載時一個道理的,只是少了從磁力到種子文件的一個過程而已。
BitTorrent 協議的種子文件可以保存一組文件的元數據。這種格式的文件被 BitTorrent 協議所定義。擴展名一般為“.torrent”。BitTorrent 使用”分布式哈希表”(DHT)來為無 tracker 的種子(torrents)存儲 peer 之間的聯系信息。這樣每個 peer 都成了 tracker。這個協議基于 Kademila 網絡并且在 UDP 上實現。
DHT 由節點組成,它存儲了 peer 的位置。BitTorrent 客戶端包含一個 DHT 節點,這個節點用來聯系 DHT 中其他節點,從而得到 peer 的位置,進而通過 BitTorrent 協議下載。
peer: 一個 TCP 端口上監聽的客戶端/服務器,它實現了 BitTorrent 協議。
節點: 一個 UDP 端口上監聽的客戶端/服務器,它實現了 DHT(分布式哈希表) 協議。 如果對 DHT 協議感興趣的話一定要看下 DHT 協議 的具體內容,這里有 中文翻譯版本。(想要徹底讀懂項目的話一定要先了解該協議,代碼都是基于該協議實現的)
務實的實踐
項目來源
一般來講到 Python 爬取,大家的第一印象可能就是 requests/aiohttp,或者是 scrapy/pyspider 等爬蟲框架。基本上都是從指定的 HTML 頁面爬取信息。我有一個項目 torrent-cli(github.com/chenjiandongx/torrent-cli) 就是一個從資源網站上爬取磁力信息的工具。
然而我想自給自足獲取磁力種子,Google 了一番,發現大家基本上的代碼都是從 simDHT(github.com/fanpei91/simDHT)這個項目來的,首先這個項目很棒,但是有個問題就是代碼實現細節基本沒有一行注釋且不兼容 Python3。而很多網上同類的代碼基本上也是對這個照搬....
所以我知道我要開始干活了
經過一波 happy coding 之后
項目結構
核心代碼
crawler.py
從 DHT 網絡中獲取磁力鏈接。主要是利用一些大型的服務器 tracker,冒充 DHT 節點,使用 UDP 協議加入到 DHT 網絡中一波搜索以及和其他節點搞好關系,讓他們也分享我點資源。磁力數據存放在了 redis,利用 redis 的集合特性來去重。使用了多線程/多進程,用于提高爬取效率。在我的本地機器(i7-7700HQ/16G 內存/8M 網速)跑了一下,效果還不錯,4 小時爬了 100 萬條磁力鏈接。
$ redis-cli
127.0.0.1:6379> scard magnets
(integer)1137627
然后代碼推送到我那臺性能強悍 1 核/2G 內存/1M 網速阿里云服務器跑一下,哎....
magnettotorrent_aria2c.py 利用 aria2 將磁力鏈接轉換為種子文件。嘗試了一些其他的方式將磁力轉換為種子,但效果好像都不怎么理想。使用過 libtorrent 的 Python 版本,不知道是我打開方式不對還是它本來效率就不高,反正愣是一個種子都沒有轉換成功。
最后兜兜轉轉用到了 aria2 發現效率還可以。這里利用多線程跑一個命令。所以要先把 aria2 安裝到你的 PATH 中,具體參考官網介紹。
parse_torrent.py 解析種子文件內容,同樣也是利用了 bencoder 進行解碼。有了種子我們當然要看看到底是些什么資源了啦。你說世界就是這么小,在我解析出來的幾百個種子文件中,居然有幾個都是來自那個以2的10次方為標志的社區。
有圖有真相
輔助代碼
database.py:封裝了關于 redis 的數據操作,主要是利用其集合數據結構。
utils.py:一些工具函數
如何使用
獲取源碼及安裝依賴環境
$ git clone https://github.com/chenjiandongx/magnet-dht.git
$ cd magnet-dht
$ pip install -r requirements.txt# 確保已經安裝好 redis,redis 的具體配置可以在 database.py 里面修改。
運行項目
至于進程數量可以在 crawler.py 進行調整$ python manage.py -h
usage: manage.py [-h][-s][-m][-p]
start manage.py with flag.
optional arguments:
-h,--help show this help message andexit-s run start_server func.
-m run magnet2torrent func
-p run parse_torrent func
深刻的感悟
自我學編程以來,我一直都是屬于興趣驅動的,對某種技術感興趣的話就會花時間去研究去嘗試。想成為一個有趣的人,去做一些有趣的事,真心覺得能把腦海里的想法轉變為代碼實現是件很棒的事,即使可能這件事在別人看來并沒有什么了不起。技術發展變化總是那么快,不緊跟著可能不小心就掉隊了。所以希望每個真心熱愛編程的人都能不忘初心,永遠保持對新技術的熱情,永遠能從編碼中找到樂趣。
-
服務器
+關注
關注
12文章
9029瀏覽量
85207 -
客戶端
+關注
關注
1文章
290瀏覽量
16663
原文標題:用Python獲取磁力種子
文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論