IEEE x ATEC
IEEE x ATEC科技思享會是由專業技術學會IEEE與前沿科技探索社區ATEC聯合主辦的技術沙龍。邀請行業專家學者分享前沿探索和技術實踐,助力數字化發展。
在社會數字化進程中,隨著網絡化、智能化服務的不斷深入,伴隨服務衍生出的各類風險不容忽視。本期分享會的主題是《網絡欺詐的風險與對抗》。五位嘉賓將從不同的技術領域和觀察視角,圍繞網絡欺詐場景下的風險及對抗技術展開分享。
以下是莊福振研究員的演講,《NN模型在金融風控場景中的應用》。
《NN模型在金融風控場景中的應用》
很高興能來參加IEEE x ATEC科技思享會。我今天分享的題目是《NN模型在金融風控場景中的應用》。我今天的演講內容主要分成三個部分:背景,研究工作,我們的一點總結。
眾所周知,在過去十幾年中,第三方在線支付市場發展迅速。同時,與在線交易相關的犯罪活動也大大增加,并且這種交易欺詐行為嚴重威脅了在線支付行業。2016年,互聯網犯罪投訴中心就收到了近380萬投訴,導致超過13億的財務損失。在線交易欺詐中,最常見的是賬戶被盜以及卡被盜。賬戶被盜指的是未經授權的賬戶操作或欺詐者在控制了某人的付款賬戶后進行的交易,通常由于憑證泄露造成的。卡被盜表示某人卡的相關信息,例如卡號、賬單信息等已被欺詐者獲取并用于未經授權的一些收費。
下面我分享一下我們和螞蟻集團聯合做的一些研究工作。主要有三個工作,一個是基于神經層級分解機的用戶事件序列分析(SIGIR 2020),第二個是基于雙重重要性感知分解機的欺詐檢測 (AAAI 2021),第三個是我們在可解釋方面提出的利用層級可解釋網絡建模用戶行為序列的跨領域欺詐檢測 (WWW 2020)。
一、基于神經層級分解機的用戶事件序列分析
首先是基于神經層級分解機的用戶事件序列分析。在支付業務中,每個人都從注冊系統、登錄系統,再到把自己選擇的商品放入購物車,最后做交易或者付款。根據用戶的賬戶動態,我們可以判定下次付款到底是不是一個欺詐行為。用戶的賬戶動態有豐富的數據序列信息可供利用。單純只關注特征組合的工作或者單純關注序列信息的工作,都只能從單獨的角度去建模用戶事件序列行為,每個事件僅通過簡單的嵌入、拼接或者全連接,而難以獲得更好的事件表示。我們希望設立一個層次化的模型同時結合這兩方面進行建模,從而對欺詐檢測進行分析。
右圖有兩個案例,一個是我們在豆瓣上看了電影(如圖1),同樣也是一個用戶行為序列,這里面最大的一個貢獻是怎么去做這個事件的表示。我們剛才看到,每個事件實際上都包含了很多的特征。
如圖2所示,一個事件的特征包含X1到Xn這么多個特征。我們在用戶的事件序列里,包括e1到eT的T個事件,每個事件在場景里面有56個特征,包括50個類別型特征和6個數字型特征。事件內部的特征之間的組合實際上更具判別性地來判定、預測欺詐檢驗。例如在1分鐘之內進行的跨國交易,我們就很容易判斷這是一筆盜卡行為。我們希望用FM模型去建模這種特征組合關系。FM是一種在嵌入空間中自動進行二階特征組合的模型。看一下(圖2)事件的表示:vi跟vj是兩個特征的向量化的空間的表示,它是兩兩特征之間的一個組合,Xi跟Xj實際上是一個權重的表示。最后我們會得到一個事件的表示,從特征的交互得到一個特征的事件表示。
當這個事件表示完后,我們希望得到一個比較好的序列表示,即我們對這個序列進行提取一個比較好的特征表示。每個用戶序列實際上包含多個事件,兩個事件組合發生,對欺詐行為檢測更具有判別性。同樣的,我們也希望去考慮事件之間的序列的影響。比如說我們先做A事件再做B事件,可能會導致欺詐的可能性變大。我們希望我們的模型能夠去建模這種序列的影響。從剛才的角度出發,事件組合的建模,我們用S來表示,同樣也是因子分解機去做的。不同事件兩兩組合,qi和qj也是它的一個權重。對于序列影響,我們從兩方面去考慮,一是從事件自身的重要性去考慮,它有一個自注意力機制來表示就是Sself;還有一個是我們用RNN網絡來去建模事件的歷史序列行為信息,也就是雙向的LSTM去建模。最后,我們可得出這個序列是由三部分組成:事件的組合;事件的自注意力機制;事件本身具有的一個特征。把三者組合在一起得到整體的序列表示。
右邊這張圖是我們提出的一個框架,也叫做神經層級分解機。從底部開始,是有事件的特征。我們對哪個事件特征進行編碼后,就可以去做這個事件的表示,學習做這個序列的提取。提取后,我們可以看到模型做一個多層感知機的輸出。我們同樣可以在這個Feature上面去做一個線性的分類。最終我們把這兩部分當成一個Sigmoid的一個參數,得到0到1之間的輸出,我們最終的一個優化函數其實是一個交叉熵的損失函數,N是對所有有標記的數據進行學習。這是我們的模型的一個框架。
在這個實驗中,我們利用工業界里面的一個真實的數據集。例如LAZADA這樣一個東南亞的電商平臺,我們從這個平臺上面拿到了三個國家的數據集。這個數據集正例是欺詐行為,負例是正常的交易行為,可以看到正常交易行為和異常的欺詐行為,相差非常大、類別非常不平衡。我們的公開數據集上、電影上的數據集也做了一個實驗。在基準的算法比較上,我們采用了比較先進的一些算法,比如W&D(Wide & deep)寬度和深度,還有NFM、DeepFM、xDeepFM,以及M3利用混合模型同時學習序列的長短期依賴的模型。
我們的評價指標是采用真實工業場景里面比較關注的低用戶打擾率時的召回率,即我們在給出結果時,我們希望對前面頭部的百分之多少的用戶打電話告訴他們這可能是一個欺詐行為。例如打1000個電話,這1000個應該都是有欺詐行為,即這個比例應該是越高越好的,因此我們采用的評價指標更關注于ROC曲線的頭部(FPR<=1%) 。這里面有一個消融的
審核編輯 :李倩
-
模型
+關注
關注
1文章
3178瀏覽量
48730 -
STM
+關注
關注
1文章
556瀏覽量
42379
原文標題:【北航莊福振分享】NN模型在金融風控場景中的應用
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論