久久亚洲αV成人无码_欧美在线看片α免费观看_国产精品亚洲片在线观看_青青久久久久精品亚洲αV中文

文章來源：虹科云科技虹科干貨丨Lambda數據架構和Kappa數據架構——構建現代數據架構

如何更好地構建我們的數據處理架構，如何對IT系統中的遺留問題進行現代化改造并將其轉變為現代數據架構？該怎么為你的需求匹配最適合的架構設計呢，本文將分析兩種最流行的基于速度的數據架構，為你提供一些思路。

文章速覽：

· 什么是數據架構？

· 基于速度的數據架構

· Lambda數據架構

· Kappa數據架構

· 探索數據流模型

· 結語

一、什么是數據架構？

數據架構是企業架構中的一個元素，繼承了企業架構的主要屬性：流程、策略、變更管理和評估權衡。 根據Open Group架構框架，數據架構是對“企業主要數據類型、來源、邏輯數據資產、物理數據資產和數據管理資源的結構和交互” 的描述。

根據數據管理知識體系， 數據架構是“識別企業的數據需求（無論結構如何）并設計和維護核心藍圖以滿足這些需求”的過程 。它使用核心藍圖來指導數據集成、控制數據資產并使數據投資與業務戰略保持一致。

然而，糟糕的數據架構是僵化且過度集中的 。它使用了錯誤的工具來完成工作，這阻礙了開發和變更管理。

二、基于速度的數據架構

數據速度是指數據生成的速度、數據移動的速度以及將其處理為可用指導的速度。

根據處理數據的速度，數據架構通常分為兩類：Lambda和Kappa。

Lambda數據架構?

1.什么是Lambda

Lambda數據架構由Apache Storm的創建者Nathan Marz于 2011 年開發，旨在解決大規模實時數據處理的挑戰。術語 Lambda 源自lambda演算 (λ)，描述了在多個節點上并行運行分布式計算的函數。Lambda數據架構提供了一個可擴展、容錯且靈活的系統來處理大量數據。它允許以混合方式訪問批處理和流處理方法。

2.Lambda架構的使用場景

1）當您有各種工作負載和速度要求時，Lambda架構是理想的選擇。由于它可以處理大量數據并提供低延遲查詢結果，因此適合儀表板和報告等實時分析應用程序。 Lambda架構對于 批處理 （清理、轉換、數據聚合）、 流處理任務 （事件處理、開發機器學習模型、異常檢測、欺詐預防）以及 構建集中存儲庫 （稱為“數據湖”）非常有用。

2）Lambda架構的關鍵區別在于，它使用兩個獨立的處理系統來處理不同類型的數據處理工作負載 。第一個是 批處理系統 ，它將結果存儲在集中式數據存儲（例如數據倉庫或數據湖）中。第二個系統是 流處理系統 ，它在數據到達時實時處理數據并將結果存儲在分布式數據存儲中。

3.Lambda架構的組成

Lambda架構由攝取層、批處理層、速度層（或流層）和服務層組成。

· 批處理層： 批處理層處理大量歷史數據并將結果存儲在集中式數據存儲中，例如數據倉庫或分布式文件系統。該層使用Hadoop或Spark等框架進行高效的數據處理，使其能夠提供所有可用數據的總體視圖。

· 速度層： 速度層處理高速數據流，并使用Apache Flink或Apache Storm等事件處理引擎提供最新的信息視圖。該層處理傳入的實時數據并將結果存儲在分布式數據存儲中，例如消息隊列或NoSQL數據庫。

· 服務層： 無論底層處理系統如何，Lambda架構服務層對于為用戶提供一致的數據訪問體驗至關重要。它在支持需要快速訪問當前信息（例如儀表板和分析）的實時應用程序方面發揮著重要作用。

4.Lambda架構的使用場景

Lambda架構解決了計算任意函數的問題，系統必須評估任何給定輸入的數據處理函數（無論是慢動作還是實時） 。此外，它還 提供容錯功能 ，確保在一個系統出現故障或不可用時，任一系統的結果都可以用作另一個系統的輸入。在高吞吐量、低延遲和近實時應用程序中，這種架構的效率是很明顯的。

Lambda架構示意圖

5、Lambda架構的缺點

Lambda架構提供了許多優勢，例如可擴展性、容錯性以及處理各種數據處理工作負載（批處理和流）的靈活性。但它也有缺點：

· Lambda架構很復雜 ，它使用多種技術堆棧來處理和存儲數據。

· 設置和維護可能具有挑戰性 ，尤其是在資源有限的組織中。

· 每個階段的批處理和速度層中都會重復底層邏輯 。這種重復有一個代價：數據差異。因為盡管具有相同的邏輯，但一層與另一層的實現不同。因此，錯誤/錯誤的概率較高，并且您可能會遇到批處理層和速度層的不同結果。

Kappa數據架構?

2014年，Jay Kreps指出了Lambda架構的一些缺點。這次討論使大數據社區找到了一種使用更少代碼資源的替代方案——Kappa數據架構。

1、什么是Kappa數據架構

Kappa（以希臘字母 ? 命名，在數學中用于表示循環）背后的 主要思想是單個技術堆棧可用于實時和批量數據處理 。該名稱反映了該體系結構對連續數據處理或再處理的重視，而不是基于批處理的方法。

Kappa 的核心依賴于流式架構 。傳入數據首先存儲在事件流日志中。然后，它由流處理引擎（例如 Kafka）連續實時處理或攝取到另一個分析數據庫或業務應用程序中。這樣做需要使用各種通信范例，例如實時、近實時、批處理、微批處理和請求響應等。

2、Kappa數據架構的組成

數據重新處理是 Kappa的一項關鍵要求，使源端的任何更改對結果的影響可見。因此，Kappa 架構僅由兩層組成：流處理層和服務層。

在Kappa架構中，只有一層處理層：流處理層。該層負責采集、處理和存儲直播數據。這種方法消除了對批處理系統的需要。相反，它使用先進的流處理引擎（例如 Apache Flink、Apache Storm、Apache Kafka 或 Apache Kinesis）來處理大量數據流并提供對查詢結果的快速、可靠的訪問。

流處理層有兩個組件：

· 攝取組件 ：該層從各種來源收集傳入數據，例如日志、數據庫事務、傳感器和 API。數據被實時攝取并存儲在分布式數據存儲中，例如消息隊列或NoSQL數據庫。

· 處理組件 ：該組件處理大量數據流并提供對查詢結果的快速可靠的訪問。它使用事件處理引擎（例如 Apache Flink 或 Apache Storm）來實時處理傳入數據和歷史數據（來自存儲區域），然后將信息存儲到分布式數據存儲中。

對于幾乎所有用例，實時數據都勝過非實時數據。盡管如此，Kappa架構不應該被視為 Lambda 架構的替代品。反之，在不需要批處理層的高性能來滿足標準服務質量的情況下，您應該考慮 Kappa架構。

3、Kappa架構的優勢

Kappa架構旨在提供可擴展、容錯且靈活的系統，用于實時處理大量數據 。它使用單一技術堆棧來處理實時和歷史工作負載，并將所有內容視為流。Kappa 架構的主要動機是避免為批處理層和速度層維護兩個獨立的代碼庫（管道）。這使得它能夠提供更加精簡的數據處理管道，同時仍然提供對查詢結果的快速可靠訪問。

Kappa架構示意圖

4、Kappa架構的缺點

Kappa架構承諾可擴展性、容錯性和簡化的管理。然而，它也有缺點。

· Kappa架構理論上比 Lambda更簡單，但對于不熟悉流處理框架的企業來說，技術上仍然可能很復雜。

· 擴展事件流平臺時的基礎設施成本 。在事件流平臺中存儲大量數據可能成本高昂，并會引發其他可擴展性問題，尤其是當數據量達到TB或PB級時。

· 事件時間和處理時間之間的滯后不可避免地會產生數據延遲 。因此，Kappa 架構需要一套機制來解決這個問題，例如水印、狀態管理、重新處理或回填。

探索數據流模型?

1、為什么會出現數據流模型

Lambda和Kappa試圖通過集成本質上不兼容的復雜工具來克服2010年代Hadoop生態系統的缺點。這兩種方法都難以解決協調批處理和流數據的根本挑戰。然而，Lambda和Kappa 為進一步的改進提供了靈感和基礎。

統一多個代碼路徑是管理批處理和流處理的一項重大挑戰。即使有了Kappa架構的統一隊列和存儲層，開發人員也需要使用不同的工具來收集實時統計數據并運行批量聚合作業。今天，他們正在努力應對這一挑戰。

2、什么是數據流模型

數據流模型的基本前提是將所有數據視為事件并在不同類型的窗口上執行聚合。實時事件流是無界數據，而批量數據是具有自然窗口的有界事件流。

窗口模式示意圖

數據工程師可以選擇不同的窗口，例如滑動窗口或會話窗口，以進行實時聚合。數據流模型允許使用幾乎相同的代碼在同一系統內進行實時和批處理。

“批處理作為流處理的一個特例”的想法已經變得越來越普遍，Flink和Spark等框架也采用了類似的方法。

結語

當然，關于速度模型的數據架構討論還有另一個用處：適合物聯網 (IoT) 的設計選擇，在本篇文章中，我們就不再贅述。如何最好地構建我們處理數據的架構，如何對僵化且緩慢的IT遺留系統，進行現代化改造并將其轉變為現代數據架構，顯然，關于這個問題還尚未有定論。歡迎與我們共同探討。
審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據庫

數據庫

+關注

關注
7

文章
3765

瀏覽量
64276
大數據

大數據

+關注

關注
64

文章
8863

瀏覽量
137299
Lambda

Lambda

+關注

關注
0

文章
28

瀏覽量
9859

NVIDIA推出企業參考架構，助力打造AI工廠

全球各地的企業現在可以利用這一全新參考架構來構建高性能、可擴展、安全的數據中心。

發表于 11-01 15:35 ?208次閱讀

簡述數據中心網絡架構的演變

隨著全球對人工智能（AI）的需求不斷增長，數據中心作為AI計算的重要基礎設施，其網絡架構與連接技術的發展變得尤為關鍵。

發表于 10-22 16:23 ?238次閱讀

架構與設計常見微服務分層架構的區別和落地實踐

前言從強調內外隔離的六邊形架構，逐漸發展衍生出的層層遞進、注重領域模型的洋蔥架構，再到和DDD完美契合的整潔架構。架構風格的不斷演進，其實就是為了適應軟件需求越來越復雜的特點。可以

發表于 10-22 15:34 ?149次閱讀

<b class='flag-5'>架構</b>與設計常見微服務分層<b class='flag-5'>架構</b>的區別和落地實踐

【「大模型時代的基礎架構」閱讀體驗】+ 未知領域的感受

再到大模型云平臺的構建，此書都有提及和講解，循序漸進，讓讀者可以由點及面，由面到體的來認識大數據模型的體系架構。前言中，作者通過提出幾個問題來引導讀者閱讀思考——分布式AI計算依賴哪些硬件特性

發表于 10-08 10:40

CXL技術：全面升級數據中心架構

達到 21.2%，并在2022年至2026年期間增加一倍多。而中國的數據規模將從2022年的23.88ZB增長至2027年的76.6ZB，復合年增長率達到26.3%，成為全球生產數據最多的國家。這給當今的現代數據中心帶來了更多的

發表于 04-17 16:32 ?264次閱讀

超融合架構解決方案

隨著信息技術的發展，企業對數據中心的依賴日益增強，對存儲、計算和網絡資源的需求也在不斷增長。超融合架構作為一種新興的IT基礎設施解決方案，正逐漸成為企業數據中心建設的首選。本文將詳細介紹超融合

發表于 04-10 14:57 ?580次閱讀

交換芯片架構是什么意思交換芯片架構怎么工作

交換芯片架構是指交換芯片內部的設計和組織方式，包括其硬件組件、處理單元、內存結構、接口以及其他關鍵部分的布局和相互作用。交換芯片的架構決定了其處理網絡數據包的能力和效率。

發表于 03-22 16:45 ?684次閱讀

交換芯片架構設計

交換芯片的架構設計是網絡設備性能和功能的關鍵。一個高效的交換芯片架構能夠處理大量的數據流量，支持高速數據傳輸，并提供先進的網絡功能。

發表于 03-21 16:28 ?503次閱讀

AI數據中心架構升級引發800G光模塊需求激增

800G光模塊需求的激增直接反映了對人工智能驅動應用不斷升級的需求。隨著數字環境的不斷發展，對更快、更高效的數據傳輸的需求變得勢在必行。800G光模塊的部署，加上向2層葉脊架構的過渡，反映了滿足現代

發表于 03-05 17:32 ?586次閱讀

【vsan數據恢復】VSAN超融合基礎架構數據恢復案例

VSAN數據恢復環境：一套有三臺服務器節點的VSAN超融合基礎架構，每臺服務器節點上配置2塊SSD硬盤和4塊機械硬盤。每個服務器節點上配置有兩個磁盤組，每個磁盤組使用1個SSD硬盤作為緩存

發表于 01-15 11:33 ?662次閱讀

性能領先|憶聯×新華三，打造超融合架構下的高性能存儲方案

為助力企業用戶構建超融合架構的現代化數據中心，滿足業務發展需求，憶聯聯合新華三集團在超融合架構下打造高性能存儲方案，以此提高

發表于 12-27 18:21 ?595次閱讀

現代處理器的主要指令集架構

? ?現代處理器的主要指令集架構（ISA）包括：x86指令集架構、RISC指令集架構。

發表于 12-11 09:55 ?4332次閱讀

馮諾依曼架構和哈佛架構有何不同

馮諾依曼架構是最常見的計算機體系結構之一，最早由馮·諾依曼于1945年提出，又稱普林斯頓結構。這種架構中，指令和數據存儲在同一個存儲器中，使用同一條地址總線和數據總線來傳輸

發表于 12-10 14:10 ?1251次閱讀

springboot三層架構mapper

Spring Boot 是一種快速開發框架，提供了很多方便的功能，讓我們能夠更容易地構建企業級應用程序。在構建一個具有良好架構的應用程序時，我們往往會使用三層架構。這篇文章將詳細介紹

發表于 12-03 15:01 ?1523次閱讀

Vsan數據恢復—vSAN邏輯架構故障導致存儲關機重啟的數據恢復案例

　　一臺存儲采用了VSAN分布式存儲架構，存儲內共有24塊硬盤存儲數據。

發表于 11-27 15:04 ?530次閱讀