精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

采用基于時間序列的日志異常檢測算法應用

OSC開源社區 ? 來源:OSC開源社區 ? 作者:OSC開源社區 ? 2022-12-09 10:47 ? 次閱讀

背景

目前,日志異常檢測算法采用基于時間序列的方法檢測異常,具體為:日志結構化 -> 日志模式識別 -> 時間序列轉換 -> 異常檢測。異常檢測算法根據日志指標時序數據的周期性檢測出歷史新增、時段新增、時段突增、時段突降等多種異常。 然而,在實際中,日志指標時序數據并不都具有周期性,或具有其他分布特征,因此僅根據周期性進行異常檢測會導致誤報率高、準確率低等問題。因此如果在日志異常檢測之前,首先對日志指標時序數據進行分類,不同類型數據采用不同方法檢測異常,可以有效提高準確率,并降低誤報率。

日志指標序列的類型

日志指標序列分為時序數據與日志指標數據兩大類:

時序數據:包含平穩型、周期型、趨勢型、階躍型。

f92c8d0a-7740-11ed-8abf-dac502259ad0.png

日志指標數據:包含周期型、非周期型。

f940fc5e-7740-11ed-8abf-dac502259ad0.png

時間序列分類算法

時間序列分類是一項在多個領域均有應用的通用任務,目標是利用標記好的訓練數據,確定一個時間序列屬于預先定義的哪一個類別。時間序列分類不同于常規分類問題,因為時序數據是具有順序屬性的序列。 時間序列分為傳統時間序列分類算法與基于深度學習的時間序列分類算法。傳統方法又根據算法采用的用于分類的特征類型不同,分為全局特征、局部特征、基于模型以及組合方法 4 大類。基于深度學習的時間序列算法分為生成式模型與判別式模型兩大類。本文主要對傳統時間序列分類算法進行介紹。

f95625f2-7740-11ed-8abf-dac502259ad0.png

傳統時間序列分類算法

基于全局特征的分類算法

全局特征分類是將完整時間序列作為特征,計算時間序列間的相似性來進行分類。分類方法有通過計算不同序列之間距離的遠近來表達時間序列的相似性以及不同距離度量方法 + 1-NN(1 - 近鄰)。主要研究序列相似性的度量方法。

時間域距離

問題場景描述: 如下圖所示,問題場景是一個語音識別任務。該任務用數字表示音調高低,例如某個單詞發音的音調為 1-3-2-4。兩個人說同一單詞時,因為音節的發音拖長,會形成不同的發音序列 前半部分拖長,發音:1-1-3-3-2-4 后半部分拖長,發音:1-3-2-2-4-4 在采用傳統歐式距離,即點對點的方式計算發音序列距離時,距離之和如下:歐式距離 = |A (1)-B (1)| + |A (2)-B (2)| + |A (3)-B (3)| + |A (4)-B (4)| + |A (5)-B (5)| + |A (6)-B (6)| =6_x0001_

f984d65e-7740-11ed-8abf-dac502259ad0.png

算法原理: 如果我們允許序列的點與另一序列的多個連續的點相對應(即,將這個點所代表的音調的發音時間延長),然后再計算對應點之間的距離之和,這就是 dtw 算法。dtw 算法允許序列某個時刻的點與另一序列多個連續時刻的點相對應,稱為時間規整(Time Warping)。如下圖所示,語音識別任務的 dtw 距離如下: dtw 距離 = |1-1| + |1-1| + |3-3| + |3-3| + |2-2| + |2-2| + |4-4| + |4-4| = 0 dtw 計算出的距離為 0,由此代表兩個單詞發音一致,與實際情況相符。

f9adc776-7740-11ed-8abf-dac502259ad0.png

算法實現: dtw 算法實現包括計算兩個序列各點之間距離構成矩陣以及尋找一條從矩陣左上角到右下角的路徑,使得路徑上的元素和最小兩個主要步驟。距離矩陣如下圖所示,矩陣中每個元素的值為兩個序列對應點之間的距離。DTW 算法將計算兩個序列之間的距離,轉化為尋找一條從距離矩陣。左上角到右下角的路徑,使得路徑上的元素和最小。實現要點如下:

轉化為動態規劃的問題(DP);

由于尋找所有路徑太耗時,需要添加路徑數量限制條件(可以等效為尋找矩陣橫縱坐標的差的允許范圍,即 warping window)。

f9d9847e-7740-11ed-8abf-dac502259ad0.png

差分距離法

差分距離法是計算原始時間序列的一階微分,然后度量兩個時間序列的微分序列的距離,即微分距離。差分法將微分距離作為原始序列距離的補充,是最終距離計算函數的重要組成部分。 對于一個時間序列 t=(t1, t2, …,tm),其一階微分計算公式如(2-1)所示,二階微分計算公式如(2-2)所示,更高階的微分計算方式依次類推。差分距離法將位于時間域的原時間序列和位于差分域的一階差分序列相結合,提升分類效果。研究方向主要是如何將原序列和差分序列合理結合。

f9ece988-7740-11ed-8abf-dac502259ad0.png

基于局部特征的分類算法

將單條時間序列中的一部分子序列作為特征,用于時間序列分類。主要有以下特點:

關鍵在于尋找能夠區分不同類的局部特征;

由于子序列更短,因此構建的分類器速度更快;

但由于需要尋找局部特征,需要一定的訓練時間。

fa0441d2-7740-11ed-8abf-dac502259ad0.png

基于間隔(interval)的分類算法

基于間隔(interval)的分類算法分類方法是將時間序列劃分為幾個間隔,從每個間隔中提取特征。過程中需考慮以下關鍵問題:

需要找到最具有區分度特征的區間;

區間劃分方法很多,如果處理大量的候選區間;

如何在每個區間上合理提取特征。

關鍵問題解決方法如下(TSF-Time Series Forest):

采用隨機森林的方法解決序列區間數量大的問題,采用統計值作為特征;

長度為 m 的序列,提取 sqrt (m) 個區間,每個區間上提取均值、標準差和斜率三個特征,共 3*sqrt (m) 個特征用于訓練;

分類結果由集成的所有樹的多數投票決定;

fa3332da-7740-11ed-8abf-dac502259ad0.png

基于 shapelets 的分類算法

shapelet 分類算法通過在序列中查找最具辨別性的子序列用于分類,其中 shapelet 指一個與位置無關的最佳匹配子序列。該類算法適用于可以通過序列中的一種模式定義一個類,但是與模式的位置無關的分類問題。主要有以下兩個研究方向:

shapelet 尋找:枚舉所有可能的 shapelet,挑選最好的;

shapelet 用法:將 shapelet 用于決策樹的結點分裂準則。

fa4f6c70-7740-11ed-8abf-dac502259ad0.png

fa76651e-7740-11ed-8abf-dac502259ad0.png

shapelet 分類算法通過在序列中查找最具辨別性的子序列用于分類,其中 shapelet 指一個與位置無關。

fa91c21e-7740-11ed-8abf-dac502259ad0.png

基于詞典的分類算法

由于 shapelet 分類算法需要花費大量時間搜索子序列,因此更適用于短序列。對于長序列,更適用于在高級結構上衡量相似度。此外,shapelet 只使用一個最佳匹配進行分類,無法解決區別在模式重復數量上的分類問題。因此,對于長序列中一種模式反復出現的時間序列,更適用于一種叫做 dict 詞典類的分類算法。 基于詞典的分類算法原理是以序列中的子序列的重復頻率作為特征進行分類。首先對序列進行降維和符號化表示,形成單詞序列,然后根據單詞序列中的單詞分布情況進行分類。特點是通過給每個序列傳入一個長度為 w 的滑動窗構建單詞,每一個窗產生 l 個近似值,將每個值離散化,對應到一個字母表中的符號。 BOP - Bag of Patterns 采用了類似 “bag of words” 的思路,將時間序列表示成一系列模式的向量。存在問題如下:

需要構建 “模式詞匯表 -> SAX

時間序列沒有明顯分隔符進行分割。- 滑動窗口

操作步驟如下:

BOP 算法采用滑動窗口在原始序列上取子序列;

再利用 SAX 方法將子序列轉化為單詞,并記錄每個單詞數量,所有的單詞匯總為詞匯表;

最后構建 “單詞 - 句子” 向量矩陣,行是詞匯表,列是每個時間序列,點的值是詞匯在序列中的出現頻率。

_x0008_SAX (Symbolic Aggregate Approximation) 對序列進行正則化,在橫軸方向,將時間序列等長劃分為 w 段,計算每一段的均值,并將 w 個系數聚集在一起,這個過程稱為分段聚集近似(Piecewise Aggregate Approximation,PAA)。 研究表明正則化的時間序列的子序列服從高斯分布,在縱軸方向,將均值從高斯分布等概率劃分為三塊區域,位于每個區域的系數分別用 a,b,c 表示,此時序列已轉化為字符串。

fac34ee2-7740-11ed-8abf-dac502259ad0.png

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    6888

    瀏覽量

    88824
  • 檢測算法
    +關注

    關注

    0

    文章

    119

    瀏覽量

    25212

原文標題:日志異常檢測準確率低?一文掌握日志指標序列分類

文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    模型、指數平滑方法、Prophet,以及神經網絡,例如循環神經網絡長短期記憶網絡、Transformer、Informer 等。 ●第4章“時間序列異常檢測”:介紹
    發表于 08-07 23:03

    基于粒子群優化算法的屬性異常檢測算法

    屬性異常算法時間復雜度是多項式級的。與全搜索檢測算法相比,大幅減少了搜索范圍;同時,與完全隨機算法相比,
    發表于 11-20 09:21 ?4次下載

    多變量水質參數時間異常事件檢測算法

    在供水管網中部署傳感器網絡實時獲取多個水質參數時間序列數據,當供水管網發生污染時,高效準確地檢測水質異常是一個重要問題。提出多變量水質參數時間
    發表于 12-07 16:17 ?0次下載
    多變量水質參數<b class='flag-5'>時間</b><b class='flag-5'>異常</b>事件<b class='flag-5'>檢測算法</b>

    密度偏倚抽樣的局部距離異常檢測算法

    異常檢測是數據挖掘的重要研究領域,當前基于距離或者最近鄰概念的異常數據檢測方法,在進行海量高維數據異常
    發表于 12-25 14:11 ?0次下載

    基于概率圖模型的時空異常事件檢測算法

    當網絡異常事件發生時,傳感器節點間的時空相關性往往非常明顯。而現有方法通常將時間和空間數據性質分開考慮,提出一種分散的基于概率圖模型的時空異常事件檢測算法。該
    發表于 12-28 15:54 ?0次下載
    基于概率圖模型的時空<b class='flag-5'>異常</b>事件<b class='flag-5'>檢測算法</b>

    基于角度方差的數據流異常檢測算法

    傳統基于歐氏距離的異常檢測算法在高維數據檢測中存在精度無法保證以及運行時間過長的問題。為此,結合高維數據流的特點運用角度方差的方法,提出一種改進的基于角度方差的數據流
    發表于 01-17 11:29 ?1次下載
    基于角度方差的數據流<b class='flag-5'>異常</b><b class='flag-5'>檢測算法</b>

    機器學習算法概覽:異常檢測算法/常見算法/深度學習

    異常檢測,顧名思義就是檢測異常算法,比如網絡質量異常、用戶訪問行為
    發表于 04-11 14:20 ?1.8w次閱讀
    機器學習<b class='flag-5'>算法</b>概覽:<b class='flag-5'>異常</b><b class='flag-5'>檢測算法</b>/常見<b class='flag-5'>算法</b>/深度學習

    基于時間卷積網絡的通用日志序列異常檢測框架

    基于循環神經網絡的日志序列異常檢測模型對短序列有較好的檢測能力,但對長
    發表于 03-30 10:29 ?8次下載
    基于<b class='flag-5'>時間</b>卷積網絡的通用<b class='flag-5'>日志</b><b class='flag-5'>序列</b><b class='flag-5'>異常</b><b class='flag-5'>檢測</b>框架

    基于車輛軌跡特征的視頻異常事件檢測算法

    檢測算法,對視頻中的車輛目標進行提取,提出了結合運動特征和表觀特征的多目標追蹤算法;在此基礎上,又提出了一種基于車輛軌跡特征的異常事件檢測方法,其中的追蹤
    發表于 05-13 14:45 ?5次下載

    一種多維時間序列汽車駕駛異常檢測模型

    針對傳統異常檢測模型難以準確分析汽車駕駛異常行為的情況,建立一種基于自動編碼器與孤立森林算法的多維時間
    發表于 05-26 16:32 ?2次下載

    基于離群點檢測算法的電力市場異常行為辨識

    為了監管電力市場中存在的各類違規行為,保證市場的公平竟爭,提岀了一種基于分階段離群點檢測算法的電力市場異常行為辨識方法。梳理不同交易階段異常行為的特征,提取相應的特征指標,采用主成分分
    發表于 06-01 10:43 ?4次下載

    虛擬機遷移的物理主機異常狀態檢測算法

    虛擬機遷移的物理主機異常狀態檢測算法
    發表于 06-30 11:13 ?20次下載

    如何選擇異常檢測算法

    ③ 數據清理——在訓練另一個模型之前從數據集中去除異常值。 你可能已經注意到,一些不平衡分類的問題也經常使用異常檢測算法來解決。例如,垃圾郵件檢測任務可以被認為是一個分類任務(垃圾郵
    的頭像 發表于 10-25 09:15 ?1657次閱讀

    智能電網時間序列異常檢測:a survey

    故障、中斷、外部網絡攻擊或能源欺詐引起的。識別這些異常對于現代電網的可靠和高效運行至關重要。對電網時間序列數據進行異常檢測的方法有很多種。本
    發表于 04-04 16:13 ?0次下載
    智能電網<b class='flag-5'>時間</b><b class='flag-5'>序列</b><b class='flag-5'>異常</b><b class='flag-5'>檢測</b>:a survey

    【AIOps】一種全新的日志異常檢測評估框架:LightAD,相關成果已被軟工頂會ICSE 2024錄用

    需要更長的時間來進行日志預處理、模型訓練和模型推斷,從而阻礙了它們在需要快速部署日志異常檢測服務的在線分布式云系統中的采用。 本文對現有的基
    的頭像 發表于 11-29 17:40 ?588次閱讀