在中國人工智能大會(huì)上,螞蟻金服副總裁兼首席數(shù)據(jù)科學(xué)家漆遠(yuǎn)博士發(fā)表了主題為《金融智能的發(fā)展與應(yīng)用》的演講。在此次演講中,漆遠(yuǎn)從風(fēng)控系統(tǒng)、智能助理、定損寶等產(chǎn)品案例出發(fā),全面介紹了螞蟻金服產(chǎn)品背后的 AI 技術(shù)。現(xiàn)場,螞蟻金服的“模型服務(wù)平臺(tái)”首次公開亮相,主打“模型所見即所得”。漆遠(yuǎn)表示,數(shù)據(jù)是資產(chǎn),模型本身也是資產(chǎn)。未來,螞蟻金服也會(huì)將這個(gè)平臺(tái)作為其中一個(gè)AI能力向合作伙伴和客戶開放。本文根據(jù)演講內(nèi)容整理了螞蟻金服人工智能的發(fā)展與應(yīng)用圖譜。
螞蟻金服AI發(fā)展與應(yīng)用圖譜,回復(fù)“螞蟻”獲取高清版
以下為漆遠(yuǎn)博士演講實(shí)錄:
今天很高興給大家作一個(gè)分享,介紹一下AI在螞蟻金服的發(fā)展和應(yīng)用。
首先我會(huì)講一講為什么我們要做AI,為什么呢?因?yàn)锳I離不開場景和數(shù)據(jù),為什么要場景,因?yàn)槲覀円鉀Q真正的問題,產(chǎn)生真正有意義的服務(wù)。在金融里面我們有大量的服務(wù),從支付、保險(xiǎn)、財(cái)富、到風(fēng)控、微貸等各個(gè)領(lǐng)域,其中典型的場景就例如要判斷某個(gè)小企業(yè)是否具備相應(yīng)的信用能夠承受貸款的風(fēng)險(xiǎn)。
在所有的場景里面產(chǎn)生了海量的數(shù)據(jù),而這些數(shù)據(jù)成為了人工智能的燃料,使得我們可以發(fā)展和應(yīng)用一系列的人工智能技術(shù)。而這些場景、問題本身又為人工智能帶來了挑戰(zhàn),比如說時(shí)間敏感要求一筆交易需要毫秒級完成判斷。再如海量數(shù)據(jù),一天幾億筆的數(shù)據(jù),這就需要非常大規(guī)模的穩(wěn)定的風(fēng)控的系統(tǒng)。還有業(yè)務(wù)多樣性,比如說怎么用遷移學(xué)習(xí)來發(fā)現(xiàn)不同任務(wù)之間的共性。再比如說系統(tǒng)性風(fēng)險(xiǎn), 系統(tǒng)可以用一個(gè)網(wǎng)絡(luò)來表達(dá),那你怎樣從網(wǎng)絡(luò)的角度分析問題。還有強(qiáng)數(shù)據(jù)安全和用戶隱私保護(hù)也是金融業(yè)務(wù)本身的屬性。
面對這些挑戰(zhàn)我們構(gòu)建了一個(gè)金融智能的平臺(tái),從底層的圖像理解,以及使用阿里巴巴集團(tuán)的語音識(shí)別能力,在此之上發(fā)展了NLP的能力,然后這上面進(jìn)行機(jī)器學(xué)習(xí)、深度學(xué)習(xí),分析時(shí)間序列,比如說預(yù)測余額寶的利率變化;在最頂層,我們發(fā)展推理和決策的能力,使我們能夠幫助我們的用戶和金融合作伙伴做出明智的決策。
在這個(gè)金融智能平臺(tái)中包括了一系列的人工智能技術(shù),比如說強(qiáng)化學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、圖推理、共享學(xué)習(xí)。這些技術(shù)具備金融領(lǐng)域的實(shí)時(shí)對抗性、大規(guī)模以及安全加密性。
今天講幾個(gè)例子,從例子出發(fā)講講背后的技術(shù)。在這之前,我先講講螞蟻金服現(xiàn)在的兩個(gè)關(guān)鍵詞。螞蟻金服我們定位為Techfin,而科技公司的一個(gè)核心的是什么?是AI。所以今年螞蟻金服兩個(gè)關(guān)鍵詞,一個(gè)是“開放”,一個(gè)是“AI”,我們希望通過AI驅(qū)動(dòng)所有的業(yè)務(wù),同時(shí)作為科技公司,我們技術(shù)成熟一個(gè)開放一個(gè),所以下面探討的技術(shù)也是探討如何開放給伙伴。
安全風(fēng)控
首先是在安全風(fēng)控中,里面有用戶、設(shè)備、商家,他們之間通過資金流動(dòng)形成互聯(lián)。傳統(tǒng)的風(fēng)控技術(shù)中我們建立了很多的規(guī)則和模型。螞蟻金服過去十年通過使用大量的機(jī)器學(xué)習(xí)建立強(qiáng)大的風(fēng)控系統(tǒng)。但是今天我們希望進(jìn)一步地升級風(fēng)控系統(tǒng)。比如說可信模型,我們想判斷有一筆交易是否存在賬號被盜。而這里面我們使用了一個(gè)跨界的技術(shù),其實(shí)就廣告CTR預(yù)估的技術(shù)。 在2014年Facebook廣告算法的文章中, 講的是GBDT+邏輯回歸。使用我們開發(fā)的參數(shù)服務(wù)器技術(shù),我們把邏輯回歸換成了大規(guī)模深度學(xué)習(xí),使用到風(fēng)控里面: 通過GBDT產(chǎn)生特征,然后DNN繼續(xù)學(xué)習(xí)。 因?yàn)樵陲L(fēng)控里面很多特征我們無法判斷哪些有用哪些沒有用,我們用GBDT產(chǎn)生海量特征然后把這些特征feed給深度學(xué)習(xí)模型。
前面是說我們把GBDT和DNN結(jié)合起來考慮風(fēng)控。深度學(xué)習(xí)往下走,我們也考慮關(guān)系,用戶、商家、賣家等的關(guān)系,下面我舉一個(gè)例子,我們通過embedding技術(shù),把整個(gè)關(guān)系結(jié)合起來,形成圖形網(wǎng)絡(luò),然后進(jìn)行監(jiān)督學(xué)習(xí)、加強(qiáng)學(xué)習(xí)。
給大家看看例子,比如說支付寶賬號的賬戶(行為),我們一個(gè)網(wǎng)絡(luò)有好人、壞人,有設(shè)備比如說手機(jī)、計(jì)算機(jī),iPad等,我判斷今天這個(gè)人是否注冊一個(gè)垃圾賬號特別簡單。我們可以把整個(gè)的圖關(guān)系通過一個(gè)embedding的技術(shù)產(chǎn)生一個(gè)深度學(xué)習(xí)的網(wǎng)絡(luò),通過機(jī)器學(xué)習(xí)產(chǎn)生一個(gè)隱層表達(dá),這個(gè)表達(dá)不光涵蓋了每個(gè)節(jié)點(diǎn)自身復(fù)雜的特征,同時(shí)還對網(wǎng)絡(luò)結(jié)構(gòu)做了一個(gè)encoding。在垃圾賬號的識(shí)別上,在經(jīng)典的Recall-Precision曲線中,Precision越高越好,接近1就是完美。原來的規(guī)則是不具可采信的,現(xiàn)在我們對圖使用embedding技術(shù)后有一個(gè)質(zhì)的飛躍,Recall在70%、80%的時(shí)候,Precision達(dá)到90%,而原來的算法Precision在40%幾,這基本相當(dāng)于瞎猜。這個(gè)和以前的系統(tǒng)相比,Node2Vec也是非常先進(jìn)了,我們在此基礎(chǔ)上又做出了明顯的提升。
將圖的關(guān)系和Feature結(jié)合起來,可以產(chǎn)生非常Power的模型,用在我們的模型里面。通過廣告的算法提升了系統(tǒng),我們進(jìn)一步學(xué)習(xí),將深度學(xué)習(xí)和圖模型結(jié)合起來,可以融合網(wǎng)絡(luò)關(guān)系與復(fù)雜特征。
智能助理
下面講講另外一個(gè)方向,在過去的很多年,不管是中國還是美國,講起智能助理和機(jī)器人都是非常熱的話題。這里對話很關(guān)鍵,在螞蟻金服初始的對話從客服機(jī)器人開始,如果你使用支付寶,打開客服小螞答可以問各種各樣的問題,例如你問余額寶收益怎么算,他就給你一個(gè)這樣一個(gè)答復(fù),提供工具輸入金額并計(jì)算。然后還有財(cái)富的理財(cái)渠道,你問某個(gè)企業(yè)業(yè)績怎樣就會(huì)開始進(jìn)行輿情分析,輿情分析在金融里面非常多的應(yīng)用,我們可以自動(dòng)分析,海量的輿情在中國國內(nèi),為月新聞、周新聞相應(yīng)地打出輿情分。
下面講兩個(gè)技術(shù),在對話機(jī)器人里面,在客服里面,假如問了這句話我怎樣申請退錢回來,它是沒有場景的。在問答系統(tǒng)中要理解它,就要真正知道在問什么,我們可以根據(jù)用戶的近期操作,這些操作本身就提供了一個(gè)背景和場景。我們通過LSTM對用戶行為軌跡做一個(gè)編碼,然后整個(gè)模型是一個(gè)深度排序模型,比較哪個(gè)更相似,通過LSTM建立模型,把怎樣申請退錢回來的用戶問題,和轉(zhuǎn)賬轉(zhuǎn)錯(cuò)怎么辦和為什么銀行卡轉(zhuǎn)賬被退回來,這兩個(gè)進(jìn)行答案匹配。我們給出正確的選擇轉(zhuǎn)賬到賬戶錯(cuò)了怎么辦。這里有一系列的創(chuàng)新。這些創(chuàng)新今天不一一講。最后的結(jié)果,去年雙十一智能客服自助率做到97%。同時(shí)今年我們問題解決率超過了人工客服,機(jī)器人回答問題比人回答更為滿意。
這里對輿情分析背后技術(shù)簡單介紹,首先一個(gè)特別簡單的模型,就是統(tǒng)計(jì)這些感情單元,同時(shí)又和深度學(xué)習(xí)的方法結(jié)合,最后產(chǎn)生整體的判斷,這里面的話使用CNN,k-max pooling可以結(jié)合起來,還有TNN,將所有的信息結(jié)合起來進(jìn)行一個(gè)綜合的評價(jià)。
剛才兩個(gè)例子講到對話機(jī)器人,第一個(gè)是客服,第二個(gè)是財(cái)富號的輿情分析。再就是保險(xiǎn),同時(shí)支付寶本身也在進(jìn)行升級,您對支付寶可以說話,比如說我要給我的同事通過語音進(jìn)行轉(zhuǎn)賬,自動(dòng)完成轉(zhuǎn)賬并記錄到賬單里面。
機(jī)器學(xué)習(xí)平臺(tái)
下面第三個(gè)講機(jī)器學(xué)習(xí)平臺(tái),這是我們團(tuán)隊(duì)在阿里第一年開始做的工作,后來在螞蟻繼續(xù)和阿里集團(tuán)合作開發(fā)。現(xiàn)在它是阿里和螞蟻金服使用最廣泛的大規(guī)模機(jī)器學(xué)習(xí)平臺(tái)。2015年我們用于廣告取得非常好的效果,后來用于淘寶推薦,前年用到雙11推薦,今年又用到了螞蟻的風(fēng)控里面,其實(shí)它的核心技術(shù)就是我們能夠通過系統(tǒng)和算法的結(jié)合,處理海量數(shù)據(jù)。所以在風(fēng)控系統(tǒng)里面,我們可以在同樣安全覆蓋的情況下,提升召回率,每天一千多萬筆可以準(zhǔn)確輕松地通過審查。這個(gè)平臺(tái)前年做到了,但是今年才寫文章出來。它能支持100億特征、千億樣本、萬億參數(shù)。這是說它可以支持非常多的數(shù)據(jù)和特征,我們能從數(shù)據(jù)中提取價(jià)值做出預(yù)測。
假設(shè)非常多的數(shù)據(jù),萬億參數(shù)非常耗能耗的,同時(shí)需要很多的機(jī)器。很多時(shí)間的applications,我們希望速度比較快比較省能源。在非常非常經(jīng)典的矩陣分解中,相信很多做相關(guān)研究和做開發(fā)的同學(xué)都非常了解,如果我們把矩陣分解和哈希算法做結(jié)合,我們可以處理非常大的矩陣,比如說1億×1千萬的矩陣分解,我們2小時(shí)收斂,從工業(yè)界的角度具有非常大的價(jià)值。我們用到了口碑的場景中,點(diǎn)擊率的升幅超過120%。
剛才介紹的是機(jī)器學(xué)習(xí),就是參數(shù)服務(wù)器,支持深度學(xué)習(xí)。下面再講一個(gè)技術(shù),我們的場景是營銷,比如說各種各樣的商家營銷,怎樣發(fā),發(fā)給誰,這是非常有價(jià)值的商業(yè)問題。這里面我們開發(fā)了加強(qiáng)學(xué)習(xí)技術(shù)。在這個(gè)算法中,我們有State、Action和Reward的狀態(tài),我們定義了一個(gè)空間,State是從多個(gè)業(yè)務(wù)抽取特征,刻畫用戶狀態(tài),Action是對哪些卡片和渠道做了相關(guān)決策組合,Reward就是用戶的點(diǎn)擊和簽約行為。整個(gè)框架是流式強(qiáng)化學(xué)習(xí)框架,所以能夠?qū)崟r(shí)實(shí)現(xiàn)Update。這上面講了一個(gè)流程,比如說花唄準(zhǔn)入,比如說它是否點(diǎn)入和簽約,整個(gè)算法可以在框架上迭代,效果就是在深度學(xué)習(xí)基礎(chǔ)上有更好的效果提升,比如推薦卡片點(diǎn)擊率171%的增長和最終簽約率149%的增長。
剛才講了加強(qiáng)學(xué)習(xí),講了深度學(xué)習(xí),下面講另外一個(gè)例子。如果每個(gè)技術(shù)都作為一個(gè)好用的工具開放出來,您只想用這個(gè)工具而不太深入技術(shù)本身怎么辦?我們開發(fā)了一個(gè)模型服務(wù)平臺(tái),將整個(gè)模型訓(xùn)練給您可視化,您通過簡單的點(diǎn)擊、拖拽數(shù)據(jù)就能產(chǎn)生所有的結(jié)果。比如說您是開發(fā)應(yīng)用的,您可以把算法在里面應(yīng)用以后進(jìn)行一鍵部署。當(dāng)然如果您是開發(fā)算法的也可以寫出新的算法,例如加強(qiáng)學(xué)習(xí)等,可以通過統(tǒng)一的平臺(tái)進(jìn)行服務(wù)。在螞蟻金服內(nèi)部,從芝麻信用到網(wǎng)商銀行的借貸,到風(fēng)控都正在全面地使用我們的平臺(tái)。
模型服務(wù)平臺(tái)
我們今天講到了開放與AI,這里講到螞蟻金融云和開放平臺(tái),希望我們的AI技術(shù)的能力開放服務(wù)于我們的客戶和合作伙伴。
這個(gè)模型服務(wù)平臺(tái)簡單來說我們就是模型所見即所得,不光數(shù)據(jù)是資產(chǎn),模型本身也是資產(chǎn)。做到可視化的,對于用戶來講,提供給開發(fā)人員非常方便的建模方式,非常容易使用,不需要知道某一行公式怎樣推導(dǎo)的,然后可以支持A/B測試,可以全流程地效果監(jiān)控,同時(shí)跨團(tuán)隊(duì)地合作,并且可以實(shí)現(xiàn)多人同時(shí)開發(fā)。
接下來簡單展示訓(xùn)練模型時(shí)的一個(gè)視頻。這是顯示的分類結(jié)果,這是得出來的樹狀模型,然后可以進(jìn)行效果評估,這里可以比較兩個(gè)算法哪一個(gè)更好,拆分以后隨便選兩個(gè)算法自動(dòng)評估,然后可以進(jìn)行結(jié)果對比。我們以前在學(xué)校訓(xùn)練完模型,然后手工測試幾個(gè)測試集就結(jié)束了,而在實(shí)際業(yè)界應(yīng)用里一直有新的數(shù)據(jù)跑,新的預(yù)測,必須簡潔好用。在我們說話的時(shí)候,這就產(chǎn)生了一個(gè)部署的API,大家如果有問題還可以看一個(gè)請求示例,示范如何使用這個(gè)API。部署完了以后我們要知道效果好不好,是不是一直穩(wěn)定,比如我們要監(jiān)控信用分,KS值,它是AUC的變種。我們可以看到它對每一天當(dāng)時(shí)的效果實(shí)時(shí)進(jìn)行監(jiān)控。
剛才講了整體的從模型訓(xùn)練到數(shù)據(jù)特征的產(chǎn)生,您可以從各種模塊,到訓(xùn)練到部署產(chǎn)生API,到最后效果的監(jiān)控,全流程地展示。
定損寶
那下面最后講一個(gè)例子,前幾周我們保險(xiǎn)事業(yè)部和我們發(fā)布了一個(gè)產(chǎn)品叫“定損寶”,做什么呢?出了一個(gè)小車禍,照張像,哪里有問題,是撞了一個(gè)洞還是刮蹭進(jìn)行判斷,這是非常復(fù)雜的事。我們不是做 OCR識(shí)別,也不是做數(shù)字識(shí)別,但是我們要做檢測,我們要檢測哪個(gè)部件比如說車門、車燈還是bumper,我們要理解這個(gè)場景,比如說有一個(gè)縫,本身計(jì)算機(jī)不知道是車上的縫還是墻上的縫,還必須知道這個(gè)問題多么嚴(yán)重,最后是一個(gè)決策,將多個(gè)數(shù)據(jù)源結(jié)合起來,給用戶和定損員一個(gè)輔助判斷 。
看這張圖像,您覺得車哪里有問題,我當(dāng)時(shí)看了很久也沒看出來,不知道大家怎樣? 這里面有什么問題呢?如這里所示,有個(gè)特別微小的變形。但是這里我們要解決幾個(gè)問題,第一個(gè)是問題在哪里,第二個(gè)你要把問題分幾層,到底有多嚴(yán)重的問題,比如說這是輕度變形。有的變形了你得把整個(gè)部件換掉,有的稍微一修就修好了,最后告訴您修多少錢,在您的App里面把北京你所在位置附近的維修店全部選出來告訴您成本,您做一個(gè)決策是否要修。 下面舉幾個(gè)我們遇到的計(jì)算機(jī)視覺上的挑戰(zhàn)。比如部件識(shí)別,這里面有多少個(gè)部件呢?我不是很專業(yè),不算汽車愛好者,但是可以看出來這里有很多很多部件。所有的部件要找到,并且說有問題你都要看出來。再舉個(gè)例子,左邊一個(gè)強(qiáng)反光,強(qiáng)反光是不是有問題呢?我們要琢磨琢磨。還有,照相的時(shí)候人臉都對著框子里照,拍車照片的角度變化大很多 。
這個(gè)項(xiàng)目的開始和拿到初步的結(jié)果是算法團(tuán)隊(duì)和業(yè)務(wù)同學(xué)通力合作的結(jié)果。算法同學(xué)積極學(xué)習(xí)業(yè)務(wù),從開始看不出來圖像里車的問題,到現(xiàn)在都快成了專業(yè)的圖像定損員了。我們的技術(shù)有一系列的流程,從噪音去除到類別識(shí)別到目標(biāo)檢測和程度判斷,到底多嚴(yán)重,是變形還是刮蹭。根據(jù)很多張圖片,最后我們要做預(yù)測結(jié)果的綜合,綜合以后我們做數(shù)據(jù)決策輔助,這要打通車的原件數(shù)據(jù)庫來分析,假如這個(gè)部件壞了多少錢。全國有4500萬案件/年, 60%的案件都是純外觀損傷的,它覆蓋了非常大的比例。每個(gè)成本平均150塊錢, 可以減少50%的作業(yè)量。
今天我介紹了一系列的技術(shù),以前我當(dāng)老師寫NSF proposals,都有兩個(gè)目標(biāo)要寫,一個(gè)是intellectual merits 就是技術(shù)的原創(chuàng)性,另外一個(gè)是broad impact,就是對世界的影響。一般第一個(gè)目標(biāo)我們都拼命寫,第二段都是那種來回貼的那種,為什么?因?yàn)楫?dāng)時(shí)在學(xué)校的研究里工業(yè)界有距離,缺乏直接的對世界產(chǎn)生影響的辦法。今天我覺得學(xué)校可以和工業(yè)界合作,工業(yè)界有更多的數(shù)據(jù),更大的問題更難的挑戰(zhàn),不僅應(yīng)用技術(shù)還可以發(fā)展技術(shù),今天介紹的只是一部分的技術(shù),我們還有沒有發(fā)布的技術(shù)。
未來的挑戰(zhàn)
總結(jié)一下,今天講了深度學(xué)習(xí)和圖的結(jié)合,它主要是系統(tǒng)性風(fēng)險(xiǎn)的監(jiān)測與預(yù)測; 智能助理,我們達(dá)到了超越人滿意度的智能客服。今天智能助理完成任務(wù)基于一系列的場景,因?yàn)橹Ц秾毼覀兪且幌盗械慕鹑谏罘?wù)平臺(tái),今天就加上智能的定語叫智能的一系列的金融生活服務(wù)平臺(tái); 今天也介紹了基于哈希的海量特征提取,完全是從工業(yè)的角度,希望算得快、便宜和省內(nèi)存;另外是深度強(qiáng)化學(xué)習(xí),在營銷與推薦應(yīng)用。在營銷比較關(guān)鍵,如果只是深度學(xué)習(xí)那么總是給你想要的,但是加強(qiáng)學(xué)習(xí)您可以探索一個(gè)在exploitation 和exploration的平衡:給你以前推薦你看過的類似的,也可以給你沒有看到的。
下面說些我們和其他公司可能都面臨的挑戰(zhàn),我們雖然有很多的數(shù)據(jù),但是比起我們的業(yè)務(wù)問題復(fù)雜度還是不夠,小數(shù)據(jù)、弱標(biāo)注的數(shù)據(jù)的學(xué)習(xí)就很重要。另外,比如說怎樣處理有噪音與不確定性的推理,專家系統(tǒng)是從邏輯推出來的,但是它不能handle真實(shí)世界里的噪音和異常情況,今天講的Graph Emedding是一條路,但不是僅這一條還有其他的方向。 然后機(jī)器學(xué)習(xí)里面還有一個(gè)很重要的問題是模型的可解釋性,你要知道為什么,那在金融場景有非常多的應(yīng)用,為什么信用分變低了你要給一個(gè)交代,就是解釋,今天的深度學(xué)習(xí)缺乏解釋性。還有如何從觀測的而不是隨機(jī)對比的數(shù)據(jù)中分析因果分析。還有長期目標(biāo)與短期目標(biāo)映射,怎樣把長期的目標(biāo)和短期做的目標(biāo)結(jié)合起來。最后,非線性動(dòng)態(tài)網(wǎng)絡(luò)系統(tǒng),網(wǎng)絡(luò)本身在改變 這里和物理學(xué)一些概念很相關(guān),同時(shí)和圖理論非常相關(guān),這對風(fēng)險(xiǎn)、監(jiān)控和交易都會(huì)很有用。
最后,再次說,螞蟻是一家做普惠金融的科技公司。我們主題的是開放與AI, 技術(shù)成熟一個(gè)開放一個(gè)。從客服到模型部署平臺(tái)到其他的每一個(gè)案例,包括輿情平臺(tái),我們都非常愿意賦能和服務(wù)客戶,和我們的合作伙伴、與我們的客戶共同探討和創(chuàng)造未來。
-
人工智能
+關(guān)注
關(guān)注
1791文章
46859瀏覽量
237579 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5492瀏覽量
120978 -
螞蟻金服
+關(guān)注
關(guān)注
0文章
44瀏覽量
7406
原文標(biāo)題:【干貨】一張圖讀懂螞蟻金服AI的發(fā)展與應(yīng)用
文章出處:【微信號:WUKOOAI,微信公眾號:悟空智能科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論