互聯(lián)網(wǎng)時(shí)期,大數(shù)據(jù)的概念便被提出來(lái)。但在大部分人看來(lái),大數(shù)據(jù)就如同“烏托邦”一樣,是渴望創(chuàng)新的人打造的假想國(guó)。當(dāng)在這前面加上區(qū)塊鏈,這一切看來(lái)似乎就更虛無(wú)縹緲。
但實(shí)際上,大數(shù)據(jù)的產(chǎn)業(yè)價(jià)值已經(jīng)影響到人們生活的方方面面。區(qū)塊鏈+大數(shù)據(jù)兩種看似牛馬不相及的技術(shù),卻在解決數(shù)據(jù)分散、非對(duì)稱持有方面有著更多價(jià)值,可以更好實(shí)現(xiàn)互聯(lián)網(wǎng)信息的互聯(lián)互通。
隨著區(qū)塊鏈發(fā)展至今,這一結(jié)合到底是科技進(jìn)步還是癡人說(shuō)夢(mèng)?關(guān)于區(qū)塊鏈+大數(shù)據(jù)背后的技術(shù)研究,大眾又知幾何?
OK區(qū)塊鏈聯(lián)合OKLink技術(shù)副總裁梁福坤,他從區(qū)塊鏈瀏覽器這一方向入手,闡述了區(qū)塊鏈和大數(shù)據(jù)的可結(jié)合之處以及區(qū)塊鏈技術(shù)與傳統(tǒng)互聯(lián)網(wǎng)技術(shù)的不同之處,希望能對(duì)讀者有所啟發(fā)。
目前來(lái)說(shuō),OKLink區(qū)塊鏈瀏覽器聚焦定位三大技術(shù)方向:區(qū)塊鏈、大數(shù)據(jù)和人工智能(AI方向),三者之間緊密協(xié)作,打造區(qū)塊鏈數(shù)據(jù)門戶的整體生態(tài)。
下面闡述三大技術(shù)在瀏覽器中的位置和作用,以及面臨的架構(gòu)技術(shù)挑戰(zhàn)。
1. 區(qū)塊鏈技術(shù)
區(qū)塊鏈角色更多關(guān)注全節(jié)點(diǎn)作為數(shù)據(jù)源提供方,依賴區(qū)塊鏈技術(shù)的分布式、公開(kāi)透明、可追溯、不可篡改等特征,同時(shí)結(jié)合數(shù)據(jù)分布式存儲(chǔ)、點(diǎn)對(duì)點(diǎn)傳輸、共識(shí)機(jī)制、加密算法等多種技術(shù)融合形成的區(qū)塊鏈創(chuàng)新應(yīng)用模式。
在區(qū)塊鏈瀏覽器的整體架構(gòu)中,區(qū)塊鏈作為數(shù)據(jù)源存在的挑戰(zhàn)與傳統(tǒng)大數(shù)據(jù)進(jìn)行ETL(Extract-Transform-Load)比較。
多幣種主鏈數(shù)據(jù)組織差異大,在眾多主鏈數(shù)據(jù)持有能力上,需要思考如何在系統(tǒng)架構(gòu)上提出能夠保證通用結(jié)構(gòu)復(fù)用,又要兼顧多主鏈個(gè)性化靈活支持的需求。同時(shí),理解區(qū)塊鏈全節(jié)點(diǎn)數(shù)據(jù)的業(yè)務(wù)特征、不同版本之間差異、分叉對(duì)不同高度的解析細(xì)節(jié)上在研發(fā)周期中占用較大比重。
以往大數(shù)據(jù)架構(gòu)不需要太多的關(guān)注數(shù)據(jù)業(yè)務(wù)本身涵義,更多聚焦在數(shù)據(jù)流轉(zhuǎn)、計(jì)算、存儲(chǔ),而區(qū)塊鏈則需要對(duì)業(yè)務(wù)了解放在首位,起點(diǎn)較高。
2. 大數(shù)據(jù)技術(shù)
在OKLink區(qū)塊鏈瀏覽器上,大數(shù)據(jù)聚焦在區(qū)塊鏈數(shù)據(jù)源解析之后,推送到Kafka消息隊(duì)列后續(xù),對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,實(shí)時(shí)計(jì)算和離線計(jì)算部分。
同時(shí),在瀏覽器前端展示ToC提供線上檢索服務(wù)和對(duì)不同的數(shù)據(jù)應(yīng)用放提供ToB(面向商業(yè))的API訪問(wèn)方式。
當(dāng)然,區(qū)塊鏈瀏覽器中大數(shù)據(jù)的實(shí)踐和傳統(tǒng)互聯(lián)網(wǎng)大數(shù)據(jù)有著較為明顯區(qū)分特征,下面逐一說(shuō)明:
A) 數(shù)據(jù)中臺(tái)
區(qū)塊鏈大數(shù)據(jù)更加側(cè)重?cái)?shù)據(jù)中臺(tái)的角色,而不是傳統(tǒng)的后臺(tái)提供數(shù)據(jù)分析、離線計(jì)算的位置。之所以在數(shù)據(jù)中臺(tái)委以重任,是需要更快、更為靈活的交付用戶數(shù)據(jù)。
所以查詢快是OKLink的一大亮點(diǎn),要提供區(qū)塊鏈數(shù)據(jù)的快速交付,需要在數(shù)據(jù)解析到流轉(zhuǎn)、計(jì)算存儲(chǔ)、查詢4個(gè)方面整個(gè)鏈路做全方面的優(yōu)化,整體協(xié)作來(lái)完成快速交付。
時(shí)效性在區(qū)塊鏈對(duì)ToB方面至關(guān)重要,ms級(jí)別的先機(jī)會(huì)對(duì)類似量化交易及時(shí)做出預(yù)判,類似傳統(tǒng)意義提到的時(shí)間就是金錢,唯快不破。
B) 數(shù)據(jù)弱化分區(qū)特征
在互聯(lián)網(wǎng)等傳統(tǒng)大數(shù)據(jù)進(jìn)行存儲(chǔ),一般會(huì)對(duì)數(shù)據(jù)按照日期進(jìn)行一級(jí)分區(qū),對(duì)于數(shù)據(jù)進(jìn)行分布式存儲(chǔ)和計(jì)算在MPP架構(gòu)中應(yīng)用非常嫻熟,數(shù)據(jù)可以根據(jù)使用情況做熱數(shù)據(jù)、溫?cái)?shù)據(jù)、冷數(shù)據(jù)處理分層Cache、歸檔等處理。
而區(qū)塊鏈大數(shù)據(jù)存儲(chǔ)在業(yè)務(wù)層面需要時(shí)刻準(zhǔn)備交付,即數(shù)據(jù)可以理解均為熱點(diǎn)數(shù)據(jù),例如按照地址檢索交易記錄,即便較久交易也需要實(shí)時(shí)交付。
同時(shí),時(shí)間維度在做區(qū)塊鏈的業(yè)務(wù)場(chǎng)景應(yīng)用中不重要,反而區(qū)塊高度、交易Hash、地址等維度命中率在大部分場(chǎng)景下有較多應(yīng)用。
在架構(gòu)層面,滿足弱化分區(qū)特征,需要實(shí)現(xiàn)索引和數(shù)據(jù)的異構(gòu)引擎配合存儲(chǔ)和計(jì)算,在服務(wù)層面需要做到數(shù)據(jù)一致性、檢索過(guò)程業(yè)務(wù)透明、新增索引項(xiàng)靈活配置、熱部署等工程方面挑戰(zhàn)。
C) 流批處理
流批處理指的是區(qū)塊鏈計(jì)算指標(biāo)需要結(jié)合歷史的統(tǒng)計(jì)信息和當(dāng)前的實(shí)時(shí)數(shù)據(jù)做更新,例如地址的累計(jì)交易金額=歷史累計(jì)交易金額+當(dāng)前交易金額。
前面提到如果大數(shù)據(jù)處于后臺(tái)角色,可以完全通過(guò)離線計(jì)算批處理的方式進(jìn)行統(tǒng)計(jì),這樣的方式即保證了準(zhǔn)確性,又相對(duì)保險(xiǎn),但在時(shí)間上會(huì)有滯后。而作為數(shù)據(jù)中臺(tái)能快速準(zhǔn)確交付用戶信息,這里需要?dú)v史聚合數(shù)據(jù)和當(dāng)前變更數(shù)據(jù)做實(shí)時(shí)計(jì)算。
這種場(chǎng)景最大的挑戰(zhàn)是數(shù)據(jù)指標(biāo)的冷啟動(dòng)+實(shí)時(shí)計(jì)算結(jié)合,并且一個(gè)指標(biāo)從定義到交付更為靈活,就需要在架構(gòu)設(shè)計(jì)上支持配置化的指標(biāo)定義,而非Case by Case的定制開(kāi)發(fā)。
OKLink實(shí)時(shí)計(jì)算平臺(tái)“閃電”中采用Flink作為流批數(shù)據(jù)計(jì)算的架構(gòu)選型,支持靈活定義Source數(shù)據(jù)源、ETL數(shù)據(jù)上下游銜接和靈活定義Sink輸出。在存儲(chǔ)方面借助HBase存儲(chǔ)滿足實(shí)時(shí)更新和按照Key檢索,歷史聚合信息計(jì)算結(jié)果存儲(chǔ)在HBase,并且記錄歷史截止交易高度,閃電平臺(tái)敏銳察覺(jué)數(shù)據(jù)變更并且延續(xù)后續(xù)實(shí)時(shí)計(jì)算過(guò)程。
D) 數(shù)據(jù)補(bǔ)償機(jī)制
即當(dāng)線上數(shù)據(jù)出現(xiàn)問(wèn)題之后,如何能夠快速修正數(shù)據(jù)。一般來(lái)說(shuō),數(shù)據(jù)出現(xiàn)問(wèn)題的原因包括:計(jì)算邏輯變更、數(shù)據(jù)解析bug、區(qū)塊分叉、數(shù)據(jù)延遲交付等因素。
這些因素雖然在瀏覽器上線后出現(xiàn)的頻率較低,但是每次出現(xiàn)人工處理成本較高,主要表現(xiàn)在處理時(shí)間、人工核驗(yàn)的質(zhì)量參差不齊。
數(shù)據(jù)補(bǔ)償機(jī)制是數(shù)據(jù)質(zhì)量保證重要的途徑,可以滿足數(shù)據(jù)的最終一致性需求。數(shù)據(jù)補(bǔ)償?shù)奶幚聿襟E可以歸納為識(shí)別壞數(shù)據(jù)、定位數(shù)據(jù)源、清理目標(biāo)寫入、數(shù)據(jù)重計(jì)算四個(gè)部分,因?yàn)獒槍?duì)不同的數(shù)據(jù)源處理步驟大同小異,所以非常適合工程化方案解決。
當(dāng)前這里面也存在一些挑戰(zhàn),比如壞數(shù)據(jù)出現(xiàn)位置監(jiān)控與定位、已寫入引擎數(shù)據(jù)識(shí)別和清楚、修正補(bǔ)丁(Patch)熱部署熱加載避免停服、旁路數(shù)據(jù)修正等。
E) 新數(shù)據(jù)頻繁變更
數(shù)據(jù)變更在互聯(lián)網(wǎng)場(chǎng)景更多體現(xiàn)在OLTP數(shù)據(jù)庫(kù)中,而在OLAP場(chǎng)景下更多為沉淀數(shù)據(jù),追加較多變更非常少。
頻繁變更帶來(lái)的問(wèn)題是數(shù)據(jù)碎片化嚴(yán)重、標(biāo)記刪除和定期歸檔工程化較為復(fù)雜,目標(biāo)存儲(chǔ)引擎支持更新,同時(shí)如果支持冪等性業(yè)務(wù)操作,還需要識(shí)別已寫入數(shù)據(jù)哪些是覆蓋想,哪些是刪除項(xiàng)。
3. 人工智能技術(shù)
人工智能(AI)技術(shù)在區(qū)塊鏈瀏覽器場(chǎng)景下,落地存在較多場(chǎng)景。從公開(kāi)、透明、不可篡改的數(shù)據(jù)中,發(fā)現(xiàn)數(shù)據(jù)背后更多的價(jià)值挖掘,例如地址畫像、量化交易都是從已有區(qū)塊數(shù)據(jù)中發(fā)現(xiàn)相關(guān)性。
AI技術(shù)和區(qū)塊鏈技術(shù)均存在擅長(zhǎng)的發(fā)揮領(lǐng)域,但是也避免不了有各自的短板,而取長(zhǎng)補(bǔ)短融合才能發(fā)揮更大的空間。
區(qū)塊鏈數(shù)據(jù)去中心化和分布式存儲(chǔ)給AI帶來(lái)公開(kāi)透明的大數(shù)據(jù)生態(tài)市場(chǎng)、更加豐富AI的數(shù)據(jù)特征工程、模型與算法提升。同時(shí),把AI技術(shù)應(yīng)用到區(qū)塊鏈,可以讓區(qū)塊鏈智能合約、工作量證明、自治組織等更加智能、高效、安全、未來(lái)精準(zhǔn)評(píng)估。
首先在數(shù)據(jù)公開(kāi)對(duì)稱層面,區(qū)塊鏈數(shù)據(jù)不像傳統(tǒng)大數(shù)據(jù)掌握在BAT等大公司手中,相對(duì)數(shù)據(jù)使用者是對(duì)等的關(guān)系。
因?yàn)閰^(qū)塊鏈數(shù)據(jù)對(duì)使用者更加開(kāi)放和對(duì)等的信息公開(kāi)性,基于區(qū)塊鏈數(shù)據(jù)的應(yīng)用在數(shù)據(jù)層面讓使用者站在同一個(gè)起點(diǎn)和基礎(chǔ)。而人工智能的核心算法層、模型層面,更為適應(yīng)業(yè)務(wù)需求開(kāi)展深度發(fā)揮,在數(shù)據(jù)應(yīng)用層面百花齊放。
其次是合作共贏方面,因?yàn)槭窍嗤瑪?shù)據(jù)樣本產(chǎn)出的結(jié)果,后期產(chǎn)業(yè)融合、成果融合方面更為開(kāi)放和流暢。
這其中代表性的例子類似地址的標(biāo)簽畫像,不同的應(yīng)用放可以針對(duì)標(biāo)簽構(gòu)建特征工程和描繪,最后成果可以根據(jù)地址的ID-Mapping可以實(shí)現(xiàn)融合共享。
類似業(yè)界安全方面比較注重的黑產(chǎn)地址、博彩地址、富豪地址、礦池和交易所地址的多角度識(shí)別,未來(lái)AI、區(qū)塊鏈技術(shù)在相互調(diào)用、促進(jìn)方面會(huì)有更多想象空間等待發(fā)現(xiàn)。
評(píng)論
查看更多