精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

陳純院士報告分享:時序大數據流(圖)實時計算及智能決策

bzdlyqxsl ? 來源:中國計算機學會 ? 2023-04-03 11:26 ? 次閱讀

人類社會和物理空間在信息空間中映射有兩種基本表達結構,分別是針對對象的特征空間結構和針對關系的關聯圖譜結構。在互聯網、移動互聯網出現之后,這兩種結構所表達的數據都可以擁有時間戳。基于時間戳的數據被稱為 “時序數據”,時序數據是從2013年開始提出了的概念。從計算機算法的角度來看,時序數據有幾個特點:第一是增量的;第二是時序的,時間不能隔斷;第三是動態的;第四需要處理復雜的時序變化。

在2015年的時候,我們開始研究時序數據,有別于歷史數據和實時數據的處理,針對時序大數據流的實時計算,我們希望做到每秒千萬級并發訪問,千億級流水和高實時。

41143dd6-d16c-11ed-bfe3-dac502259ad0.png

大數據、流數據到“時序大數據”發展歷程

針對時序大數據的處理,我們的研究工作涉及到四項關鍵技術,分別是:

1. 面向復雜統計指標的實時增量計算。基于多項式拆解的復雜算子增量計算算法,實現了在長周期、多尺度、高密度時間窗口中的方差、協方差、K階中心矩等數十種復雜算子實時計算。例如,從數學上,我們需要把計算協方差的方法重新寫成增量的方法,以前的數據不是簡單的原數據,而是通過計算以后的中間量,這需要花費很長的時間。我們用了十幾年的時間,把每個算法從數學的角度重新定義。

2. 面向時序數據處理的動態時間窗口技術。時間窗口需要提供滾動、滑動的漂移能力,也要支持長周期時間窗口的動態精度控制,并且還要支持基于彈性時間窗口的實時ADHoc查詢。

3. 多源時序數據的實時關聯計算。關聯分析非常重要,不僅僅是一個特征的時序分析,還需要關聯起來,這個時候需要有一個關聯分析的引擎。針對關聯分析的引擎,我們必須在內存里面有非常大的空間,但是要做到實時也是非常難的。

4. 基于流的事件序列識別(復雜事件處理CEP)。主要是支持CEP的增量匹配及數理統計問題,要把增量匹配增量統計。

通過多年的努力,我們基本上解決了四大關鍵技術問題,形成了我們稱之為的流立方技術。流立方能夠和均勻流架構完全結合起來,具有歷史數據的大數據量的處理能力,同時又具有流處理的實時能力。這是一個大數據處理的方式,因為在具體應用當中,大家會碰到很多大數據的分析,但是很多時候,都沒有加上時間這個緯度的分析,當然沒有加上時間緯度的分析也許能夠解決問題,但是要花費很大的計算量。這四項關鍵是處理大數據實時時序的大數據流分析,后面結合AI的模型,可以形成一個實時的流的管理。

流立方,除了流之外,還可以在圖上展示。特征空間的分析用特征向量就可以,加了一個在每個特征空間里面時間緯度,形成時序的時間分析。圖的分析是關聯分析,關聯分析圖也是可以加時間緯度。

如下圖所示,在2017年的時候已經知道圖數據的處理非常重要。同樣的,到了2018年的時候,圖越來越大,需要進行實時的圖計算,這個時候我們想到很多的方式,分布式的實時圖數據也有,類似于流處理,和以前的批處理的架構一樣。以前所謂的圖處理,現在是實時圖處理,關鍵是加上時序分析。到了2018年有1.0版,目前我們希望有2.0版,這里有大量的工作需要做。尤其是圖計算越來越重要,圖計算能夠產生80%的數據創新。通過圖計算分析能夠洞徹數據之間的關聯關系,提高社會運行效率,這是戰略的制高點。

41584c06-d16c-11ed-bfe3-dac502259ad0.png

從“時序流”到“時序動態圖”的發展歷程

圖計算也是非常難的,實時圖計算,時序圖的動態回溯和分析,百億級頂點,萬億億的邊,兩兩都有邊,時間軸會變一下,有的頂點增加,有的頂點減少,有的關聯邊沒有了,有的邊增加了,這個關聯度要建立起來。這樣的應用案例非常多,去年在新冠期間,在實時的時空關聯中,有很多頂點,除了每個人是一個頂點之外,把時空分割起來也是一個頂點。所以,一個人在時間、空間上和你關聯起來,就是時空關聯。幾百億的頂點和邊,怎么做都是困難的,這里通過時序圖的實時增量計算和動態回溯,時序圖的分布式處理,時序圖的智能決策都有很大的挑戰性。在我們的研究工作中,這里依然由四項關鍵技術。

1. 時序圖的實時增量計算,包括統計特征,聚合的統計,聚合邊的關聯。圖和流不一樣,圖實時動,圖的結構就變了,到了下一時刻,原來是兩億的點的圖,變成了現在的2.3億,增加三千萬點。需要動態建圖,并且時序圖的增量匹配是個問題。事件驅動的圖模式并行匹配,需要很大的工作量,除此之外,更難的是原有的圖算法很多,需要進行圖算法的增量計算,有大量工作要做。

2. 時序圖的實時動態回溯。支持長周期、混合時間尺度的時序計算能力,以及支持彈性時間窗口的視圖實時回溯能力。關系在變化,每個切面都要變,需要實時進行查詢。

3. 時序圖的分布式內存存儲引擎。這么大的圖做到實時,一定要把數據導進內存,能不能做一個分布式的內存架構顯得非常重要。到目前為止,開源的流效益依然不高。我們做的時序圖分布式存儲引擎叫做cubebose,希望對圖的結構更加有效。

4. 面向時序圖的實時決策(三核智能決策引擎),把數據從實時采集到實時決策,指標計算特征提取這里面有圖數據庫,時間關系等。

針對時序圖的應用,銀行交易反欺詐系統是一個典型的案例。這個系統用到了流的處理引擎,是一個精巧的計算,可以不用大量的算力和計算機來做這個工作。銀聯要求每秒5萬個并發,希望在50毫秒內全球要響應,IBM的硬件要一千多萬,我們的算法只使用4臺PC設備。如果沒有時序流的計算,硬件不僅僅4臺,可能要40臺都不夠。

第二案例是鐵路12306,大量的爬票程序存在,需要在每秒170萬的并發量,幾千臺設備管理買票都要宕機。阿里的雙11支付的峰值是每秒60多萬,鐵路12306峰值達到180萬,是阿里的雙11的3倍。采用了我們的算法,僅僅使用了22臺設備。現在鐵路12306核心處理只有22臺,安裝了22個節點的流立方,可以做到每秒200萬的處理能力。

在數字經濟時代,數據怎么處理,從時間軸上面考慮,這是非常重要的。因為以前的算法沒有時間這個緯度,我們通過很多AI模型來計算來解決這個問題,但是加上時間,一切問題迎刃而解。黑客攻擊也是一樣,以前沒有時間戳,沒有辦法,加上時間戳很多問題很多模型都簡化很多,所以我建議大家在具體的數字經濟時代,當我們在處理數據的時候,結合場景,加一個緯度(時間)加上去看看,能不能起到一個很好的作用。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4601

    瀏覽量

    92673
  • 模型
    +關注

    關注

    1

    文章

    3178

    瀏覽量

    48731
  • 大數據
    +關注

    關注

    64

    文章

    8864

    瀏覽量

    137310

原文標題:陳純院士報告分享:時序大數據流(圖)實時計算及智能決策

文章出處:【微信號:信息與電子工程前沿FITEE,微信公眾號:信息與電子工程前沿FITEE】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    常見大數據應用有哪些?

    設計階段大數據架構設計階段需掌握的技術有:Flume分布式、Zookeeper、Kafka等。四、大數據實時計算階段大數據實時計算階段需掌握的技術有:Mahout、Spark、storm。五、
    發表于 03-13 16:50

    ARMS: 原來實時計算可以這么簡單!

    的基礎,整合和封裝了數據收集,消息通道,實時計算時序存儲,以及在線報表等多種先進互聯網技術組件。本文主要介紹一下 ARMS 自定義監控中聚合邏輯以及時序查詢設計。離線
    發表于 06-19 17:19

    LabVIEW數據流語言的特點和有效控制方法

    摘 要:本文剖析了LabVIEW數據語言特點,提供了其若干有效控制方法,指出LabVIEW本身即可解決數據流控制上的變量沖突、響應時序控制、初始狀態自適應調整等問題并保證其通用性,
    發表于 04-11 09:40

    LabVIEW數據流控制方法研究

    本文剖析了LabVIEW 數據流語言的特點,提供了其若干有效控制方法,指出LabVIEW 本身即可解決數據流控制上的變量沖突、響應時序控制、初始狀態自適應調整等問題并保證其通用性,
    發表于 07-30 11:39 ?13次下載

    基于數據流的Java字節碼分析

    本文基于數據流框架理論,提出了如何將數據流分析方法應用于JAVA 字節碼中,通過建立數據流與半格、數據流和函數調用的關系,從而對類型信息進
    發表于 12-25 13:22 ?9次下載

    網絡數據流存儲算法分析與實現

    針對網絡數據流存儲的瓶頸問題,提出了一種網絡數據流存儲算法分析與實現方法,仿真結果表明,模型能顯著提高網絡數據流實時存儲能力
    發表于 05-26 15:57 ?21次下載
    網絡<b class='flag-5'>數據流</b>存儲算法分析與實現

    基于大數據的流式計算

    流式計算大數據的一種重要計算模式,大數據流計算已成為研究熱點。任務管理是大數據流
    發表于 11-22 17:34 ?1次下載
    基于<b class='flag-5'>大數據</b>的流式<b class='flag-5'>計算</b>

    大數據環境下的分布式數據流處理關鍵技術探析

    大數據環境下的數據流處理實時性要求高,數據計算要求持續性和高可靠性。分布式數據流處理系統( DD
    發表于 12-05 19:04 ?0次下載
    <b class='flag-5'>大數據</b>環境下的分布式<b class='flag-5'>數據流</b>處理關鍵技術探析

    數據流的網絡實時入侵檢測

    針對計算機網絡訪問請求具有實時到達以及動態變化的特點,為了實時檢測網絡入侵,并且適應網絡訪問數據的動態變化,提出一個基于數據流的網絡入侵
    發表于 01-17 10:09 ?0次下載
    <b class='flag-5'>數據流</b>的網絡<b class='flag-5'>實時</b>入侵檢測

    下一代大數據處理引擎,阿里云實時計算獨享模式重磅發布

    的。而實時計算作為一類針對流數據實時計算模型,可有效地縮短全鏈路數據流時延、實時計算邏輯、平
    發表于 11-15 15:47 ?243次閱讀

    數據流是什么

    數據流最初是通信領域使用的概念,代表傳輸中所使用的信息的數字編碼信號序列。然而,我們所提到的數據流概念與此不同。這個概念最初在1998年由Henzinger在文獻87中提出,他將數據流定義為“只能以事先規定好的順序被讀取一次的
    的頭像 發表于 02-27 15:25 ?7038次閱讀

    實時計算在貝殼的實踐

    摘要:Apache Flink 是一個分布式大數據處理引擎,可對有限數據流和無限數據流進行有狀態計算。本文由貝殼找房的資深工程師劉力云將帶來Apache Flink技術在貝殼找房業務中
    發表于 03-15 17:16 ?1252次閱讀
    <b class='flag-5'>實時計算</b>在貝殼的實踐

    基于賽靈思提供的實時計算平臺的超低時延視頻解決方案

    本期案例將介紹 BroadBand 與 Skreens 的合作,雙方基于賽靈思提供的實時計算平臺打造了超低時延視頻解決方案。
    的頭像 發表于 04-16 10:56 ?2284次閱讀

    金融機構如何構建實時計算能力

    后中臺時代,金融機構在批處理計算能力方面差距已不明顯,實時計算將成為銀行錯位競爭的分水嶺。在IBM商業價值研究院(IBV)最新出品的洞察報告《馬作的盧 弓如霹靂》中,IBM咨詢專家提出了“六位一體
    的頭像 發表于 01-20 10:27 ?1822次閱讀

    實時計算汽車數量開源分享

    電子發燒友網站提供《實時計算汽車數量開源分享.zip》資料免費下載
    發表于 06-28 09:26 ?0次下載
    <b class='flag-5'>實時計算</b>汽車數量開源分享