對于區塊鏈和人工智能而言,2018年仍是它們風口正勁的一年。在過去的一年中,我們目睹了擊敗專業圍棋選手的AI程序AlphaGo,也見證了區塊鏈在全球范圍內的強勢發展。那么當我們把區塊鏈和需要大量訓練數據的機器學習模型結合在一起后,普通開發者能否打破科技巨頭的壟斷,創造出真正的AGI呢?
且不論區塊鏈和人工智能行業中存在的泡沫。如果我們能建立一個基于區塊鏈的機器學習市場,那它就結合了兩大優勢:一是私人化的機器學習,即允許在不透露用戶敏感隱私數據的情況下訓練模型;二是區塊鏈的激勵機制,它會優先選擇最佳數據和模型,并使其變得更智能。它們共同作用的結果就是一個開放的市場:任何人都能在里面出售數據,同時保證數據的安全性;而開發者則可以通過激勵機制為算法篩選優質數據。
構建這樣一個系統是極具挑戰性的。雖然一些關鍵的區塊還沒有人做出來過,但如果只是構建一個簡單的初始版本,這在現在已經不是一件難事。我們現還處于Web 2.0時代,這是個數據都被市場、大公司壟斷的時代,也是個不公平的時代。如果我們建立了這樣一個市場,那它就能真正開啟數據和算法的全面公開競爭,提前讓每個人邁入Web 3.0時代。簡而言之,在這樣的市場中,我們的數據和算法都能被直接貨幣化。
起源
這個靈感來自2015年查德· 努梅萊的采訪對話。Numer.ai是一個向參賽者開放大量加密數據機器學習競賽平臺,被稱為金融市場的Kaggle。它也是一家對沖基金,利用數據科學家訓練出的模型進行資本運作。把加密后的市場數據分發下去后,Numer.ai會從競賽中挑選出最好的模型放入“元模型”中,如果“元模型”表現良好(盈利),那相關數據科學家就能從中得到分紅。
像這樣讓數據科學家們參與競爭的方法似乎是一個可行的思路,既然Numer.ai能把原本完全分散的各個模型整合在一起用于對沖基金,那從理論上來說,同樣的做法也適用于其他任何領域。
嘗試
作為一個示例,我們可以先試著創建一個完全分散的系統,并把它用于用于加密貨幣零散交易,這事實上也是區塊鏈的一個潛在應用場景。
數據(DATA):數據提供者分類數據,并把它們提供給建模人員。
模型構建(MODELS):建模人員篩選出合適的數據,并創建模型。為了防止數據泄露,系統要保證訓練過程的安全性,上圖的結構就允許模型在不暴露底層數據的情況下進行訓練。模型也被分類。
元模型構建(METAMODELS):元模型的構建需要考慮各模型的分類算法,在這基礎上重新整合?!斎唬@一步只是個可選項,你也可以不把所有模型都放在一個籃子里。
分配收益/損失:經過一個周期后,我們在加密貨幣交易中賺取利潤/虧損了,這時各模型就要承擔利潤/損失分成。這不是一個一刀切的過程,有些模型只提供部分積極/消極貢獻,而有些模型則全部是積極/消極貢獻,系統會考慮這些因素,并依據它們的智能程度進行獎懲。這之后,模型會轉向數據提供者,并執行類似的股權分發/削減。
可驗證計算:每個步驟的計算可以是集中式的,也可以用安全多方計算。它能不斷進行驗證。
為什么這個系統如此強大?
它能吸引全球最佳數據。這個系統中最有效的部分在于它吸引數據的激勵措施,因為數據往往是大多數機器學習任務的最大限制因素之一。通過開放式的激勵機制,比特幣在全球范圍內吸引了大量算力,同理,一個設計合理的激勵機制也能為機器學習模型帶來世界上最好的數據。如果還像現在這樣去檢索上百萬個源上的封閉數據,我們什么都做不了。
算法間的競爭。我們現在還無法擁有這種算法、模型之間全面公開競爭的機會,但我們確實需要它們。試想一下,如果Facebook的新聞推送算法不是一家獨大,那它還會鬧出“數據泄露”的丑聞嗎?
獎勵透明。在這種機制下,數據提供者和建模人員能看到自己所做貢獻的價值,并能親身參與計算驗證,這很有可能會提高他們的參與度。
自動化。元模型構建完成后,它會進入一個行動閉環,這時系統是完全自動的。換句話說,這樣的自動化能降低貢獻者心中的疑慮。
網絡效應。數據提供者和數據科學家之間多面的網絡效應能使系統不斷進行自我強化。系統表現越好,它吸引的資金就越多,相應的它的潛在支出也就越多——越來越多的數據提供者和數據科學家會爭相參與其中,并使系統變得更智能。而更智能的系統又會吸引更多的資本,這就步入了一個良性循環。
安全計算
安全計算允許模型在數據上進行訓練而不會泄露數據本身。目前被工業界和學術界廣泛使用的安全計算方法主要有以下三種:同態加密(HE)、安全多方計算(MPC)以及零知識證明(ZKPs)。除去各自的特點,這三種方法中又以安全多方計算目前在機器學習數據加密中應用得最廣泛,因為同態加密計算過慢,而機器學習又顯然不是零知識證明的對標場景。
也正是因為這一點,安全多方計算在計算機科學研究中一直處于前沿位置,它的技術瓶頸在于計算效率太低,但近年來這種情況也在逐漸好轉。
終極推薦系統
為了說明個性化機器學習模型的潛力,我們可以想象一個名為“終極推薦系統”的應用程序,它會監控你在設備上執行的所有操作:瀏覽記錄、在各應用中的操作、手機圖片、位置數據、消費記錄、可穿戴傳感器、短信等。它控制著你的所有設備,包括你放在家里的相機,甚至你未來會買的相機。在這些數據基礎上,它再向你推薦該訪問哪個網站、看哪篇文章、聽哪首歌或購買哪件商品。
這個推薦系統很高效,比Google、Facebook等其他科技巨頭現有的AI推薦算法智能得多,因為它對你本人有非常深刻的了解。但你完全不用擔心自己的隱私被泄露了,因為它只從你的數據中學習,而除了它,沒有其他的第三者知曉你的情況。以前加密貨幣交易系統也推出過類似的服務,它通過個人用戶在某個在線市場上的訪問情況推薦可用加密貨幣交易的商品,甚至還會因用戶貢獻數據而給予獎勵。
谷歌的federated learning和蘋果的differential privacy都是朝個性化機器學習模型邁出的第一步,但他們在贏得用戶信任這條路上還任重道遠,因為這兩家公司都把模型的個性化對象——用戶個人排除在了安全性檢查、數據存儲以外。
當前的區塊鏈和機器學習
對于這一切來說,現在還很早,早到只有很少的人在做相關的工作,而他們中的大多數人都抱著在這塊大蛋糕上咬下第一口的想法。
Algorithmia Research曾建立過一個基于區塊鏈的機器學習模型結構,它把元模型的準確率設置為高于某個回測閾值。
由Algorithmia Research創建的機器學習模型的簡單構造
而Numer.ai則在這個基礎上分三步走:首先對數據加密(不完全使用同態加密),其次是把眾包模型結合進元模型中,最后是根據未來表現獎勵模型,而不是回測某個具體的目標。數據科學家必須將Numer.ai用做分紅指標的加密貨幣Numeraire看成游戲幣,它只會隨未來發生的事增多、減少,而不會受已有事實影響(測試時的性能)。但是它的一個缺點是目前只是簡單地分發數據,缺乏對數據科學家目標意識的鼓勵。
之前Ocean曾做過一個關于數據的區塊鏈市場,但只是個雛形,目前該領域還沒有出現非常成功的案例。
還有一些人在探索計算機網絡安全領域的區塊鏈應用。如Openmined正在創建一個多方計算網絡,用于在Unity之上培訓機器學習模型,該網絡可以在任何設備上運行,包括家用游戲機。
總而言之,這樣一個迷人市場的最終狀態會是參與者彼此共享同一個元模型,它按數據提供者、建模人員的智能貢獻比例分配所有權。這個模型將被標記化,并隨著時間的推移向“股民”分發“股息”,甚至可以被全體“股東”支配。這是一種互相擁有的蜂巢式思維。
啟示
綜合全文,就基于區塊鏈技術的機器學習市場這個想法,我們可以得到以下幾點啟示。
首先,分散式機器學習市場可以破除目前科技巨頭對數據的壟斷。在過去的20年中,這些大型公司利用互聯網來創造價值、實現商品化和標準化,并搜集了大量專用數據用于鞏固和加強他們的網絡效應。這樣做的結果就是,價值創造從數據被轉移到了算法上。
科技領域的標準化和商品化周期,數據壟斷網絡時代即將終結
換句話說,他們也為AI創造了一種直接的商業模式:喂數據→訓練。
其次,這些公司創造了世界上最強大的AI系統,通過直接的經濟激勵,最好的數據和模型被他們收入囊中,而他們的實力也通過網絡效應的良性循環進一步增強。隨著Web 2.0時代的到來,大公司的作為使數據壟斷實現了商品化,而這似乎又成了突破這種壟斷局面的新切入口。雖然幾年內數據領域的局面不會有太大變化,但這看起來是個正確的方向。
第三,正如之前提到的“終極推薦系統”,我們現有的搜索推薦算法的出發點是完全顛倒的。大公司是為了增加產品競爭力而制定個性化推薦,而不是出于用戶需要,專門開發真正精準的推薦算法。這就帶來了另一個機遇,就是每個人都可以拓展個人市場,挖掘完全自定義的數據,并把它們放進自己的模型中。
第四,Google和Facebook等公司通過機器學習開發了大量受歡迎的應用,有了這樣一個市場,我們可以實現在不泄露個人隱私的前提下獲得同樣好,甚至更好的技術體驗。
第五,機器學習研究可以更快地推進,因為任何工程師都可以訪問開放的數據市場,而不僅僅是大型Web 2.0公司的一小部分工程師。
挑戰
雖然愿景很美,但在通往Web 3.0的路上,我們還要面對很多挑戰。首先一個技術上的重要難題就是安全計算方法的效率還是太低了,這大大拉高了機器學習的計算成本。
我們在文章中多次提到把模型結合進元模型。對于單個模型而言,為它找一組特定的測試集是很容易的,但我們不能把同樣的做法生搬硬套到元模型上,因為涉及復雜的分類算法,目前要實現這一點還很難。
雖然市場能解決數據問題,但這些數據的清理工作和格式化工作還是十分繁瑣的。我們現在有不少自動化工具,一些小企業也愿意接眾包的活,但這還是太復雜了。
最后就是最諷刺的一點,我們花一整篇文章講述了如何構建一個廣義上的商業模式,但一旦涉及實際落地,可能它還不如直接開一個數據市場來得簡單有效。而其中的加密手段也無非就是市場管理層面的工作。
結論
總而言之,個性化機器學習和區塊鏈的結合可以在各種應用中創造更強大的機器之能。隨著時間的推移,它甚至還能解決重大的技術挑戰。它的潛力是巨大的,它的價值觀也是符合用戶需要的。但它們又是可怕的——它們引導自我存在、自我強化,消費私人數據,并且幾乎不可能關閉——這也是現在加密貨幣緩慢滲透每一個行業所帶來的警示。
-
人工智能
+關注
關注
1791文章
46858瀏覽量
237552 -
機器學習
+關注
關注
66文章
8377瀏覽量
132407 -
區塊鏈
+關注
關注
110文章
15560瀏覽量
105787
原文標題:基于區塊鏈的機器學習市場
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論