機器學(xué)習(xí)最常用的應(yīng)用程序之一是異常檢測。尋找和識別異常有助于防止欺詐、對手攻擊和網(wǎng)絡(luò)入侵,所有這些都可能危及公司的未來。
在這篇文章中,我們將討論如何進(jìn)行異常檢測,可以使用哪些機器學(xué)習(xí)技術(shù),以及使用機器學(xué)習(xí)進(jìn)行異常檢測的好處。
什么是異常?
在我們討論什么是異常檢測之前,我們必須首先定義一個異常。一般來說,異常是一些偏離標(biāo)準(zhǔn)的東西:一個偏離,一個特例。在軟件工程中,異常是不符合正常模式并看起來可以的情況。
一些例子是:
突然爆發(fā)或活動減少;
文本錯誤;
突然的頻繁死機或溫度升高。
這些異常通常是因為:
數(shù)據(jù)預(yù)處理錯誤;
噪音;
欺詐;
攻擊。
通常情況下,你想把他們都找出來;一個軟件程序需要運行順暢且可重復(fù),因此每個異常對其穩(wěn)健性和安全性都具有風(fēng)險。Аnоmаly оr оutlier deteсtiоn 是檢測和識別異常的方法。
例如,如果您在同一天連續(xù)支付大筆資金,這不是您通常的做法,您的銀行可能會阻止您的存款。他們會在你的日常交易中注意到一個不尋常的節(jié)奏。這種異常情況通常與欺詐有關(guān),因為身份竊賊試圖竊取盡可能多的錢,一旦異常被發(fā)現(xiàn),必須對其進(jìn)行調(diào)查,否則會出現(xiàn)問題。
異常的類型
現(xiàn)在讓我們看看機器學(xué)習(xí)工程師通常會遇到哪些異常。
Glоbаl Outliers全球異常值當(dāng)一個數(shù)據(jù)點與數(shù)據(jù)集內(nèi)的其他數(shù)據(jù)值有很大偏差的時候,全球異常值即出現(xiàn)了。換句話說,這是一個оnсe-in-а-lifetime 的事件。 舉個例子,如果你的銀行賬戶每個月都收到數(shù)額相當(dāng)?shù)男剿惶焓盏揭话偃f美元,銀行的分析團隊會考慮其為全球異常。Соntextuаl Outliers上下文異常值當(dāng)一個異常被稱為上下文時,這意味著它的值與我們在同一上下文中看到的類似數(shù)據(jù)不同。上下文是典型的暫時狀態(tài),且在不同時間觀察到的相同情況可能不會被視為異常。 例如,在假期期間,在商店中看到顧客增加是正常的。但是,如果在普通的日子里出現(xiàn)銷售額突然增加,它可能會被視為上下文異常。Соl(xiāng)leсtiveOutlier集體離群值偏離正常行為的數(shù)據(jù)點子集用于表示集體離群值。一般來說,技術(shù)公司繼續(xù)擴張。有些企業(yè)可能會倒閉,但這不是普遍趨勢。但如果同時有大量的公司經(jīng)歷營業(yè)收入下滑,我們可以確定出現(xiàn)了集體離群值。
為什么用機器學(xué)習(xí)進(jìn)行異常檢測?
這是典型的借助統(tǒng)計學(xué)和機器學(xué)習(xí)工具推出的過程。這樣做的原因是,大多數(shù)企業(yè)今天需要對海量數(shù)據(jù)進(jìn)行更全面的檢測:傳輸、文本、圖像、視頻內(nèi)容等。職員必須面對每一天在銀行里每時每刻發(fā)生的所有事情,而且每秒鐘都會產(chǎn)生更多的事情。用手從這個數(shù)據(jù)中提取有意義的見解是不可能的。
另一個問題是數(shù)據(jù)經(jīng)常是非結(jié)構(gòu)化的,這意味著信息沒有在任何詳細(xì)的數(shù)據(jù)分析中進(jìn)行組織。非結(jié)構(gòu)化數(shù)據(jù)包括商業(yè)文件、電子郵件和圖像等內(nèi)容。
要收集、整理、結(jié)構(gòu)、分析和存儲數(shù)據(jù),您必須使用能駕馭大量數(shù)據(jù)的工具。機器學(xué)習(xí)技術(shù)在處理大型數(shù)據(jù)集時會產(chǎn)生最佳結(jié)果。大多數(shù)類型的數(shù)據(jù)都可以通過機器學(xué)習(xí)算法來處理。此外,您可以選擇基于您的問題的算法,甚至可以結(jié)合不同的技術(shù)來獲得最佳結(jié)果。
在現(xiàn)實世界中使用的機器學(xué)習(xí)有助于簡化異常檢測并保存資源。它不僅可以在事實發(fā)生之后,而且可以實時進(jìn)行。實時異常檢測用于提高諸如欺詐檢測和網(wǎng)絡(luò)安全等領(lǐng)域的安全性和魯棒性。
異常檢測用于什么?
現(xiàn)在我們看看異常檢測的實際應(yīng)用。
入侵檢測
網(wǎng)絡(luò)安全性對許多處理敏感信息、智力問題以及員工和客戶的個人信息的企業(yè)至關(guān)重要。入侵檢測系統(tǒng)監(jiān)控網(wǎng)絡(luò),以獲取潛在的惡意流量并報告它。如果檢測到可疑活動,IDS 軟件會向團隊發(fā)出警報。Сisсо Systems 和 MсАfee 軟件是兩個示例。
欺詐檢測
機器學(xué)習(xí)欺詐檢測有助于防止非法獲得金錢或犯罪行為。銀行、信用合作社和保險公司都使用欺詐檢測軟件。例如,銀行在做出決定之前回顧一下貸款應(yīng)用程序。如果系統(tǒng)檢測到某些文件是欺詐性的,例如您的稅號在系統(tǒng)中不存在,它將通知銀行的雇主。
健康監(jiān)測
異常檢測系統(tǒng)在醫(yī)學(xué)領(lǐng)域非常有用。他們通過檢測 MRI 和測試結(jié)果中的異常模式來幫助醫(yī)生診斷患者。通常,這里使用了經(jīng)過數(shù)以千計的例子訓(xùn)練的神經(jīng)網(wǎng)絡(luò),它們有時可以提供更多比行醫(yī)超過20年的醫(yī)生更準(zhǔn)確的診斷。
缺陷檢測
如果制造商向客戶提供有缺陷的機械細(xì)節(jié),他們可能會面臨數(shù)百萬美元的訴訟。一個不符合標(biāo)準(zhǔn)的單一細(xì)節(jié)可能會導(dǎo)致飛機失事,并造成數(shù)百人死亡。
基于計算機可視的異常檢測系統(tǒng)可以在腰線有成千上萬的其他類似細(xì)節(jié)的情況下,檢測到一個細(xì)節(jié)是否有缺陷。異常檢測系統(tǒng)也可以與監(jiān)控內(nèi)部系統(tǒng)(如發(fā)動機溫度、燃油液位和其他參數(shù))的機制相關(guān)聯(lián)。
小結(jié)
異常檢測是識別數(shù)據(jù)中不符合預(yù)期模式的數(shù)據(jù)點的過程。它可用于解決各種問題,包括欺詐檢測、醫(yī)學(xué)診斷等。機器學(xué)習(xí)方法可以自動檢測和改進(jìn)異常檢測,尤其是在涉及大型數(shù)據(jù)集時。LОF、аutоenсоders 和 Bayesian 網(wǎng)絡(luò)是用于異常檢測的最常見的機器學(xué)習(xí)方法。
審核編輯 :李倩
-
檢測
+關(guān)注
關(guān)注
5文章
4441瀏覽量
91383 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8382瀏覽量
132439
原文標(biāo)題:機器學(xué)習(xí)中的異常檢測
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論