3月24日,由CCF主辦,微眾銀行及深圳大學(xué)微眾金融科技研究院協(xié)辦的“CCFTF14期研討會(huì)”在深圳大學(xué)舉辦,此次會(huì)議的主題為“聯(lián)邦學(xué)習(xí)技術(shù)及數(shù)據(jù)隱私保護(hù)”,億歐受邀參與報(bào)道。
隨著國(guó)際國(guó)內(nèi)數(shù)據(jù)隱私保護(hù)成為新趨勢(shì),數(shù)據(jù)共享變得更加困難,如何在保護(hù)數(shù)據(jù)隱私前提下開(kāi)展AI大數(shù)據(jù)研究?“聯(lián)邦學(xué)習(xí)”可以打破“數(shù)據(jù)孤島”具體應(yīng)用在AI領(lǐng)域。聚焦“聯(lián)邦學(xué)習(xí)技術(shù)及數(shù)據(jù)隱私保護(hù)”,CCFTF 14期研討會(huì)邀請(qǐng)國(guó)際人工智能學(xué)會(huì)理事長(zhǎng)、微眾銀行首席人工智能官楊強(qiáng)、南洋理工大學(xué)于涵教授、微眾銀行人工智能部高級(jí)研究員劉洋、京東城市計(jì)算事業(yè)部AI平臺(tái)部負(fù)責(zé)人張鈞波、北京觀韜中茂(上海)律師事務(wù)所合伙人王渝偉、第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng)、微眾銀行人工智能部副總經(jīng)理陳天健與大家現(xiàn)場(chǎng)互動(dòng)交流。
AI大數(shù)據(jù)面臨挑戰(zhàn),技術(shù)向善與遷移學(xué)習(xí)
我們知道,AI與各行業(yè)緊密結(jié)合,必將顯著改善社會(huì)生活,這是一種比較理想的狀態(tài),然而現(xiàn)實(shí)是AI系統(tǒng)仍有許多不盡如人意的地方。另外,社會(huì)對(duì)隱私保護(hù)和數(shù)據(jù)安全提出了更高的要求,這也給大數(shù)據(jù)研究及共享提出了新的挑戰(zhàn)。
競(jìng)爭(zhēng)、安全及數(shù)據(jù)壁壘等因素造成所謂的“數(shù)據(jù)孤島”問(wèn)題。在此背景下,遷移學(xué)習(xí)幫助更多領(lǐng)域建模,就像在數(shù)據(jù)集之間建立朋友圈,數(shù)據(jù)孤島問(wèn)題得到有效解決。
AI向善與系統(tǒng)短板
AI向善,它能在普惠金融、普惠教育、普惠醫(yī)療、智慧城市、災(zāi)難營(yíng)救、扶貧及農(nóng)業(yè)等領(lǐng)域發(fā)揮重要作用。
楊強(qiáng)教授表示:“AI向善(AI for good),這在國(guó)外很早就被提出來(lái)的概念。這個(gè)概念不僅僅是計(jì)算機(jī)領(lǐng)域的發(fā)展,也是社會(huì)的需求,最近大家比較關(guān)心的一個(gè)議題就是AI和社會(huì)的結(jié)合。AI作為一種工具,就像以前互聯(lián)網(wǎng)作為一種工具,加上一些傳統(tǒng)的只能少數(shù)人享受的領(lǐng)域,然后通過(guò)AI的手段對(duì)廣大的社會(huì)傳播,能夠讓普通人也能享受過(guò)去VIP享受的那一些特殊服務(wù),包括金融,所以這樣就產(chǎn)生了AI和普惠金融;AI和普惠教育,例如大學(xué)的高等教育,能不能讓所有人都能享受到。另外還有AI和普惠醫(yī)療、智慧城市、災(zāi)難營(yíng)救,AI扶貧和農(nóng)業(yè)等方面。”
AI若能與各行業(yè)緊密結(jié)合,必將顯著改善社會(huì)生活,這是一種比較理想的狀態(tài),然而現(xiàn)實(shí)是AI系統(tǒng)仍有許多不盡如人意的地方,例如AI系統(tǒng)的有偏性和AI系統(tǒng)與人類(lèi)合作方面的問(wèn)題。
“AI系統(tǒng)有偏性,根據(jù)我們交給AI系統(tǒng)的數(shù)據(jù),AI系統(tǒng)可以建立模型,但如果這個(gè)數(shù)據(jù)是有偏的,那么這個(gè)模型就會(huì)有偏性。另一個(gè)是AI系統(tǒng)和人類(lèi)合作的問(wèn)題,最近一個(gè)很大的事情是波音飛機(jī)自動(dòng)駕駛系統(tǒng)和人類(lèi)飛行員搶奪控制權(quán),不幸的是系統(tǒng)贏了,導(dǎo)致飛機(jī)墜毀,現(xiàn)在波音飛機(jī)停飛。這給我們一個(gè)很大的啟示,自動(dòng)系統(tǒng)如果不能和人類(lèi)有一個(gè)很好的交互,沒(méi)有以人為中心的設(shè)計(jì),這個(gè)系統(tǒng)會(huì)是一個(gè)災(zāi)難。”楊強(qiáng)教授表示。
遷移學(xué)習(xí)解決“數(shù)據(jù)孤島”問(wèn)題
目前,除AI系統(tǒng)自身的一些問(wèn)題外,重視隱私保護(hù)和數(shù)據(jù)安全的新趨勢(shì)也給數(shù)據(jù)研究及共享帶來(lái)新的挑戰(zhàn)。
近年來(lái),國(guó)際國(guó)內(nèi)對(duì)于隱私保護(hù)和數(shù)據(jù)安全的重視已成為重要趨勢(shì)。歐盟去年5月通過(guò)最新法案《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation, GDPR),對(duì)數(shù)據(jù)保護(hù)采取更嚴(yán)格的態(tài)度。同時(shí),我國(guó)也在緊跟這些領(lǐng)域的法律和規(guī)范,自2017年《網(wǎng)絡(luò)安全法》通過(guò)以后,目前我國(guó)個(gè)人信息保護(hù)法已納入立法規(guī)劃,有望在2020年通過(guò),這些都反映出數(shù)據(jù)保護(hù)與隱私安全越來(lái)越受到重視。
隨著隱私保護(hù)和重視數(shù)據(jù)安全成為新趨勢(shì),數(shù)據(jù)研究及共享面臨更多問(wèn)題。首先,由于競(jìng)爭(zhēng)關(guān)系、安全問(wèn)題、審批流程等因素,數(shù)據(jù)共享難度高。其次,數(shù)據(jù)在不同擁有方、云和端以及物聯(lián)網(wǎng)節(jié)點(diǎn)之間的流通存在著難以打破的壁壘,形成所謂的“數(shù)據(jù)孤島”問(wèn)題。此外,即便不同行業(yè)之間有意愿交換數(shù)據(jù),也可能遭遇政策問(wèn)責(zé)和競(jìng)爭(zhēng)保護(hù),AI的大數(shù)據(jù)面臨重重挑戰(zhàn)。
雖然AI的大數(shù)據(jù)面臨重重挑戰(zhàn),但數(shù)據(jù)孤島并非不可解決。“遷移學(xué)習(xí)就是很好的解決方案。遷移學(xué)習(xí)是用一個(gè)成熟領(lǐng)域的數(shù)據(jù)和模型,通過(guò)知識(shí)遷移,幫助完成一個(gè)小數(shù)據(jù)建模。這樣通過(guò)關(guān)聯(lián)領(lǐng)域間的相似性,幫助更多領(lǐng)域建模,這就像在數(shù)據(jù)集之間建立朋友圈,數(shù)據(jù)孤島也能得到有效解決。”楊強(qiáng)教授表示。
數(shù)據(jù)共享與安全,聯(lián)邦學(xué)習(xí)的優(yōu)越性
此外,解決數(shù)據(jù)壁壘、“數(shù)據(jù)孤島”等問(wèn)題的方法除遷移學(xué)習(xí)外,還有一個(gè)重要方法——“聯(lián)邦學(xué)習(xí)”。
谷歌公司率先提出了基于個(gè)人終端設(shè)備的“聯(lián)邦學(xué)習(xí)” (Federated Learning)算法框架。“聯(lián)邦機(jī)器學(xué)習(xí)”(Federated Machine Learning)實(shí)際上是一種加密的分布式機(jī)器學(xué)習(xí)技術(shù),參與各方可以在不披露底層數(shù)據(jù)和底層數(shù)據(jù)的加密(混淆)形態(tài)的前提下共建模型。它可以實(shí)現(xiàn)各個(gè)企業(yè)的自有數(shù)據(jù)不出本地,通過(guò)加密機(jī)制下的參數(shù)交換方式,就能在不違反數(shù)據(jù)隱私法規(guī)情況下,建立一個(gè)虛擬的共有模型。在這樣一個(gè)機(jī)制下,參與各方的身份和地位相同,成功實(shí)現(xiàn)了打通“數(shù)據(jù)孤島”走向“共同發(fā)展”的目標(biāo)。
聯(lián)邦學(xué)習(xí)分為橫向聯(lián)邦和縱向聯(lián)邦,橫向聯(lián)邦數(shù)據(jù)方特征維度相同,縱向聯(lián)邦數(shù)據(jù)方樣本ID相同。縱向聯(lián)邦學(xué)習(xí)的目標(biāo)是A方與B方聯(lián)合建立模型,并且假設(shè)只有一方有標(biāo)簽Y,兩方均不暴露數(shù)據(jù),但可能遇到的挑戰(zhàn)是只有X的一方?jīng)]有辦法建立模型,雙方不能交換共享數(shù)據(jù),最終要達(dá)到的預(yù)期為雙方俊獲得數(shù)據(jù)保護(hù)且模型無(wú)損失。
“通過(guò)縱向聯(lián)邦學(xué)習(xí),各方在隱私保護(hù)下進(jìn)行樣本ID匹配,每個(gè)參與方并不知道另一方的數(shù)據(jù)和特征,每個(gè)參與方只得到自己的自己側(cè)的模型參數(shù)(半?yún)?shù)),即滿足隱私保護(hù)的要求,又滿足數(shù)據(jù)遷移學(xué)習(xí)的目標(biāo)。聯(lián)邦學(xué)習(xí)希望在安全合規(guī)的基礎(chǔ)上達(dá)到防御攻擊、提高算法效率的目標(biāo)。”劉洋博士表示。
基于此,微眾銀行AI團(tuán)隊(duì)提出了基于“聯(lián)邦學(xué)習(xí)”的系統(tǒng)性的通用解決方案,可以解決個(gè)人(to C)和公司間(to B)聯(lián)合建模的問(wèn)題。此前,微眾銀行在城市管理的視覺(jué)應(yīng)用方面,與極視角聯(lián)合推出了聯(lián)邦視覺(jué)項(xiàng)目。
“傳統(tǒng)城市管理面臨標(biāo)簽數(shù)量少、數(shù)據(jù)分散,集中管理成本很高且模型更新和反饋存在離線延遲情況,聯(lián)邦視覺(jué)項(xiàng)目通過(guò)聯(lián)邦學(xué)習(xí)對(duì)模型提升率為15%,且模型效果無(wú)損失,這是聯(lián)邦學(xué)習(xí)應(yīng)用在物聯(lián)網(wǎng)領(lǐng)域的一大優(yōu)勢(shì)。” 劉洋表示。
物聯(lián)網(wǎng)(IoT)是基于互聯(lián)網(wǎng)、傳統(tǒng)電信網(wǎng)等信息傳輸渠道,讓所有具備通信功能的獨(dú)立物體實(shí)現(xiàn)互聯(lián)互通的網(wǎng)絡(luò)。物聯(lián)網(wǎng)的應(yīng)用之一,是透過(guò)收集多個(gè)節(jié)點(diǎn)的小數(shù)據(jù),聚集成大數(shù)據(jù)來(lái)建立應(yīng)用模型。
而邊緣計(jì)算(Edge Computing)則致力于通過(guò)依靠集網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)、應(yīng)用核心能力為一體的開(kāi)放平臺(tái),就近提供最近端服務(wù),從而產(chǎn)生更快的網(wǎng)絡(luò)服務(wù)響應(yīng),滿足不同行業(yè)的實(shí)時(shí)業(yè)務(wù)需求。
物聯(lián)網(wǎng)、邊緣計(jì)算和與人工智能 (AI) 的有機(jī)結(jié)合離不開(kāi)分布式大數(shù)據(jù)的安全、合法的管理,聯(lián)邦學(xué)習(xí)助力IoT,實(shí)現(xiàn)大規(guī)模用戶在保護(hù)數(shù)據(jù)隱私下的協(xié)同學(xué)習(xí)。
多方如何實(shí)現(xiàn)“共同富裕”,聯(lián)邦學(xué)習(xí)的收益分配
聯(lián)邦學(xué)習(xí)助力物聯(lián)網(wǎng)發(fā)展,那么,多個(gè)數(shù)據(jù)方是如何打破“數(shù)據(jù)孤島”,實(shí)現(xiàn) “共同富裕呢?聯(lián)邦學(xué)習(xí)的收益分配是怎樣的呢?
于涵教授表示。“在聯(lián)邦學(xué)習(xí)機(jī)制下,參與各方的身份和地位相同,各參與方把加密后的數(shù)據(jù)貢獻(xiàn)給聯(lián)邦,然后數(shù)據(jù)聯(lián)盟訓(xùn)練一個(gè)聯(lián)邦模型,這個(gè)模型再開(kāi)放給各數(shù)據(jù)使用方,達(dá)到數(shù)據(jù)的有效整合及使用,能夠?qū)崿F(xiàn)打通“數(shù)據(jù)孤島。”
然而,在帶來(lái)效益的同時(shí),聯(lián)邦學(xué)習(xí)也可能給企業(yè)帶來(lái)額外成本。具體來(lái)說(shuō),參與者加入聯(lián)邦需要對(duì)聯(lián)邦做出貢獻(xiàn),把加密后的數(shù)據(jù)貢獻(xiàn)給聯(lián)邦,會(huì)產(chǎn)生數(shù)據(jù)成本和資金成本,且不同質(zhì)量的數(shù)據(jù)方加入聯(lián)邦、不同給時(shí)間節(jié)點(diǎn)加入聯(lián)盟的成本和效益可能不完全相同。
“一個(gè)數(shù)據(jù)聯(lián)盟的可持續(xù)發(fā)展取決于其能否持續(xù)吸引高質(zhì)量的個(gè)人機(jī)構(gòu)數(shù)據(jù)持有人的參與”于涵教授強(qiáng)調(diào)。
如何吸引高質(zhì)量的個(gè)人機(jī)構(gòu)數(shù)據(jù)參與進(jìn)來(lái)?在解答這個(gè)問(wèn)題之前,了解收益分配博弈是很有必要的。三類(lèi)利潤(rùn)分配博弈中的分配方案包括平均主義、邊際收益和邊際損失。假設(shè)按照平均主義,數(shù)據(jù)聯(lián)盟產(chǎn)生的收益在參與者中平均分配,邊際收益則按照某個(gè)參與者加入聯(lián)盟時(shí)帶來(lái)的邊際收益確定他所應(yīng)得的收益,邊際損失則按照某個(gè)參與者退出聯(lián)盟帶來(lái)的邊際損失確定他所應(yīng)得的收益;從系統(tǒng)角度考慮,總體目標(biāo)是最大化集體效用。
這些分配方案都有各自的優(yōu)劣,如何尋找一種適合聯(lián)邦學(xué)習(xí)的分配方案?答案是聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制。數(shù)據(jù)聯(lián)盟參與者模型中核心問(wèn)題是如何公平地對(duì)待參與者,通過(guò)綜合考量數(shù)據(jù)方對(duì)聯(lián)盟的貢獻(xiàn)以及參與聯(lián)盟的代價(jià),評(píng)估收益分配能否補(bǔ)齊成本,即評(píng)估公平度目標(biāo)。
因此,聯(lián)邦學(xué)習(xí)的解決方案是基于排隊(duì)系統(tǒng)為公平度目標(biāo)建模,通過(guò)保證排隊(duì)系統(tǒng)穩(wěn)定,保證參與者等候全額補(bǔ)償?shù)臅r(shí)間有限。另外,模型的公平性維度有三個(gè),一是一個(gè)參與者所貢獻(xiàn)的數(shù)據(jù)為聯(lián)邦模型帶來(lái)的邊際效益越高,他所應(yīng)得得補(bǔ)償也越高;二是“遺憾”度及等待時(shí)長(zhǎng)應(yīng)在所有參與者間盡量均勻分布;公平性緯度三即在不同時(shí)間點(diǎn)之間,“遺憾”度及等待時(shí)長(zhǎng)的變化盡量不要太劇烈最后在優(yōu)化目標(biāo)函數(shù)。通過(guò)優(yōu)化目標(biāo)函數(shù),實(shí)現(xiàn)最大化公平度。
基于此,聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制的利益分配方案是最大化數(shù)據(jù)聯(lián)盟的整體效用,同時(shí)最小化參與者之間在“遺憾”和等待時(shí)長(zhǎng)兩個(gè)維度的不均衡。
聯(lián)邦學(xué)習(xí),機(jī)遇與挑戰(zhàn)并存
聯(lián)邦學(xué)習(xí)解決了在保證數(shù)據(jù)安全的前提下解決了“數(shù)據(jù)孤島”問(wèn)題,同時(shí)聯(lián)邦學(xué)習(xí)通過(guò)聯(lián)邦激勵(lì)機(jī)制實(shí)現(xiàn)參與方的收益分配盡可能公平。在未來(lái),聯(lián)邦學(xué)習(xí)還將帶給我們更多驚喜,尤其在生態(tài)建設(shè)方面,主要包括開(kāi)源、技術(shù)標(biāo)準(zhǔn)和商業(yè)賦能等領(lǐng)域。
在開(kāi)源方面,微眾銀行基于“聯(lián)邦學(xué)習(xí)”開(kāi)發(fā)了聯(lián)盟AI系統(tǒng)并開(kāi)源聯(lián)盟AI解決方案FATE(Federated AI Technology Enabler)。作為聯(lián)邦學(xué)習(xí)領(lǐng)域第一個(gè)商用級(jí)開(kāi)源項(xiàng)目,F(xiàn)ATE為開(kāi)發(fā)者提供所必須的多方協(xié)同建模工作流管理、加密機(jī)器學(xué)習(xí)工具庫(kù)和并行計(jì)算基礎(chǔ)設(shè)施抽象三層能力,同時(shí)提供了很多開(kāi)箱即用的聯(lián)邦學(xué)習(xí)算法和聯(lián)邦遷移學(xué)習(xí)算法供開(kāi)發(fā)者參考,極大簡(jiǎn)化了聯(lián)盟AI開(kāi)發(fā)的流程并降低了部署難度。這項(xiàng)開(kāi)源技術(shù)的產(chǎn)生極大降低了企業(yè)加入聯(lián)盟AI生態(tài),拓展合作協(xié)同式AI技術(shù)的門(mén)檻,為企業(yè)技術(shù)合作,協(xié)同建模,共建生態(tài)奠定了技術(shù)基礎(chǔ)。
在技術(shù)標(biāo)準(zhǔn)方面,2018年12月4日,電氣和電子工程師協(xié)會(huì)標(biāo)準(zhǔn)委員會(huì)(IEEE Standard Association)批準(zhǔn)由微眾銀行發(fā)起的關(guān)于聯(lián)邦學(xué)習(xí)架構(gòu)和應(yīng)用規(guī)范的標(biāo)準(zhǔn)P3652.1(Guide for Architectural Framework and Application of Federated Machine Learning)立項(xiàng)。此次會(huì)議上,微眾銀行宣布面向社會(huì)征稿,接收的優(yōu)秀論文將受邀在IEEE Intelligent System 特刊發(fā)表。
除了開(kāi)源、技術(shù)標(biāo)準(zhǔn)外,商業(yè)賦能更是另一重要方面,尤其是新型智慧城市建設(shè)。京東智能城市事業(yè)部AI平臺(tái)部負(fù)責(zé)人張鈞波向大家介紹了城市計(jì)算與跨越學(xué)習(xí)聯(lián)合建模,城市計(jì)算(Urban Computing)通過(guò)城市數(shù)據(jù)的采集、管理、分析挖掘和服務(wù)提供,解決交通、規(guī)劃、環(huán)境等問(wèn)題。針對(duì)城市大數(shù)據(jù)具有時(shí)空動(dòng)態(tài)、異構(gòu)、多源等特性,京東城市通過(guò)打造城市計(jì)算平臺(tái)和數(shù)字網(wǎng)關(guān)技術(shù),實(shí)現(xiàn)跨域?qū)W習(xí)聯(lián)合建模,并提出聯(lián)邦隨機(jī)森林等模型,打通數(shù)據(jù)壁壘,解決數(shù)據(jù)孤島問(wèn)題。
除了聯(lián)邦學(xué)習(xí)技術(shù)應(yīng)用等主要議題之外,本次研討會(huì)還針對(duì)聯(lián)邦學(xué)習(xí)的學(xué)術(shù)研究以及基于數(shù)據(jù)隱私等現(xiàn)實(shí)案例問(wèn)題邀請(qǐng)了第四范式的陳雨強(qiáng)博士和北京觀韜中茂(上海)律師事務(wù)所合伙人王渝偉律師做內(nèi)容分享,讓在場(chǎng)的聯(lián)邦學(xué)習(xí)愛(ài)好者們更深入地了解了聯(lián)邦學(xué)習(xí)技術(shù)。
聯(lián)邦學(xué)習(xí)帶給我們更多驚喜的同時(shí),也面臨諸多挑戰(zhàn),如何避免模型攻擊和數(shù)據(jù)攻擊,如何讓聯(lián)邦學(xué)習(xí)在安全合規(guī)前提下提高算法效率,這需要學(xué)界與業(yè)界更多參與者共同探索!
中國(guó)計(jì)算機(jī)學(xué)會(huì)( China Computer Federation, CCF ),是一個(gè)計(jì)算領(lǐng)域開(kāi)放的、專業(yè)的學(xué)術(shù)社團(tuán),堅(jiān)持會(huì)員為本的宗旨,致力于推動(dòng)計(jì)算技術(shù)的發(fā)展和應(yīng)用,致力于服務(wù)專業(yè)人士的職業(yè)發(fā)展。
微眾銀行是國(guó)內(nèi)首家開(kāi)業(yè)的民營(yíng)銀行,由騰訊、百業(yè)源和立業(yè)等多家知名企業(yè)發(fā)起設(shè)立;于2014年12月獲得由深圳銀監(jiān)局頒發(fā)的金融許可證。微眾銀行嚴(yán)格遵守國(guó)家金融法律法規(guī)和監(jiān)管政策,以合規(guī)經(jīng)營(yíng)和穩(wěn)健發(fā)展為基礎(chǔ),致力于普羅大眾、微小企業(yè)提供差異化、有特色、優(yōu)質(zhì)便捷的金融服務(wù)。
評(píng)論
查看更多