精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據倉庫、數據湖以及中心化數據所有權的問題

茶棚小二a ? 來源:Thoughtworks ? 作者:茶棚小二的專欄 ? 2021-10-18 16:23 ? 次閱讀

在數據和分析領域中,數據網格(Data Mesh)范式是取代數據湖、成為主要架構模式的強勢候選者。 重要的是,數據網格引入了新的組織視角,并且它與特定技術無關。 其關鍵思想是將領域驅動設計(DDD)和產品思維,應用到數據和分析領域的難題中。與引入DevOps文化相比,建立數據網格文化包含人與人的連接,同理心,以及聯合責任結構的建立。 通過這種方式,從數據中產生業務價值能夠實現可持續的規模化。

隨著各個公司在關鍵業務領域進行數字化,他們收集了越來越多的有關其自身流程和客戶的數據。 因此,他們希望使用這些數據來推動基于事實的決策,以便更好地滿足客戶的需求。 在某些行業中,數據驅動的水平,即公司能夠基于數據而不是憑直覺做出決策的速度,已經成為決定性的競爭優勢。

數據倉庫、數據湖以及關于中心化數據所有權的問題

在傳統的商業智能(BI)中,集中維護的數據倉庫是許多商業決策的基礎,例如:通過最新的報表來支持這些商業決策。 隨著大數據技術的成熟以及數據科學的日益普及,許多公司投資建設了中央數據湖——有些是為了替代數據倉庫,但更多情況下是對現有數據倉庫的補充。 二者的主要區別在于集展和建模的不同:通過數據倉庫的方式,數據在攝取時,已經根據特定的應用進行了轉換; 對于數據湖,這種轉換僅在數據用于消費時發生。 但是,這兩種方法的共同特點是中心化。 而正是這種中心化導致了問題的反復出現。

我一次又一次看到,一個模式是不堪重負、壓力重重的中央“數據團隊”。 這個團隊維護著中央數據基礎設施,無論是數據倉庫還是數據湖。然而,更重要的是,該團隊孤立地負責向利益相關者,產品團隊和數據科學家提供及時可靠的數據集或報表。 我故意稱其為數據團隊,而不是更具體地稱為數據工程或數據洞察團隊,是因為它反映了這個團隊經常要處理的不明確的責任組合。

因此,該數據團隊的成員經常會陷入困境。 他們花費大量時間進行“消防員”式的救急工作,也修復數據生產團隊引入的問題,但也很難使數據的消費者滿意。 尤其令人悲傷的是,這些團隊成員通常是公司中最精通數據的人。并且經常可以看到的是:這種長期的壓力會導致生產力下降,工作場所滿意度降低,甚至員工流失率增加。

如今有能力的工程師為什么無法解決這種問題? 原因在于這不是技術問題,而是組織問題。 主要問題之一是參與各方的職責劃分不當。

數據生產者一方,具有領域專業知識,即他們了解數據的含義,并且可以直接更改數據的形式; 而數據使用者一方,是數據的既得利益者,了解數據的業務潛力,因此可以清楚地描述需求,包括數據質量的相關需求。 數據團隊的成員夾于這兩方之間:他們有責任交付可靠和高質量的數據,但他們既沒有領域專業知識,也無法直接影響數據如何產生。 此外,他們并不是最終使用數據的決策者。 這意味著利益,責任和能力分布在三個不同的方面,這導致了摩擦,沮喪和誤解。

poYBAGFlU9uAXB-tAAEizWBNfA8068.png

圖一,處理數據的傳統方式切斷了數據負責人與數據使用者的關系

Data Mesh:去中心化的領域所有權,共享的基礎設施

相反,數據網格的目標狀態是讓數據生產者和數據使用者盡可能緊密地合作。從組織的角度來看,理想的情況是同一團隊同時生產和使用相同的數據,以便能夠在同一個團隊中考量利益,責任和能力。在實踐中,這通常是不可行的,因為數據生產團隊已經在其特定領域承擔了太多責任,以至于他們也無法完全負責數據消費應用。因此,將這些角色分成兩個直接溝通無需中間人的團隊,已經是向前邁出了一大步。數據生產團隊的目標應該是提供數據,以便其他人可以在不需要詳細領域知識的前提下就能從該數據中獲得價值,即數據產生者應隱藏“實施細節”。當然,這樣的數據生產團隊也可以同時處于數據消費者的位置。有一些面向消費者的數據領域非常復雜,足以證明整個領域專家團隊的價值,但是這些專家自己使用的數據與數據源對齊。

單純從組織角度來看,這種數據生產者和消費者的雙邊關系結構將特定領域的一切交給了一個團隊,有利于減少摩擦,增加了所有權,從而能夠高質量地擴展。如果我們接受這個前提,那為什么有著集中所有權的中央數據團隊的模式如此普遍?以我的經驗,有三個主要的關注點,它們在很大程度上驅動了企業中不幸的中心化數據所有權模式:

擔心團隊中沒有足夠的數據工程師和數據科學專家來組成多個團隊。相反,中央團隊被認為可以更有效地利用那些稀缺的專家,并可以更平等地支持多個團隊。

擔心失去對數據質量的控制,例如建立去中心化所有權的全局標準似乎很困難。

擔心重復的基礎設施投資,因為每個團隊都需要創建和維護類似的基礎設施,例如管道,服務和存儲。

通常,中心化數據所有權和中心化數據基礎設施之間缺乏概念上的分離, 阻礙了去中心化數據所有權的優勢。 實際上,在上述所有三種情況下,創建專注于自助服務工具的共享數據基礎設施平臺可以幫助緩解此類擔憂。但是,至關重要的是,與領域無關的自助服務工具要能夠使該數據架構平臺脫離中心化的領域數據所有權。 然而,通過使用領域無關的自助服務工具,能夠與讓數據基礎設施平臺脫離中心化的領域數據所有權。否則,數據基礎設施平臺將存在迅速成為具有中心化數據所有權的中央數據平臺的風險,這正是我們首先要擺脫的境況。 最后,此方法還需要與建立針對數據的產品思維相結合,以確保去中心化的數據所有權是可持續的。

pYYBAGFlU9yATVu5AAGQCRv0808307.png

圖2:與領域無關的數據平臺

領域無關基礎架構以及產品思維

為什么說數據基礎設施平臺確實是領域無關且專注于自助服務的呢?一個標志是,無需聯系數據基礎設施平臺團隊,團隊即可通過提供領域數據來共享其專業知識。這意味著,那些數據基礎設施平臺的開發人員在完成本職工作時,并不需要詳細的領域知識。

另一方面,該平臺必須提供工具,讓領域數據專家在無需深厚的數據工程專業知識的情況下管理其數據交付物的整個生命周期。這意味著必須使他們能夠創建數據領域產品,對其進行描述和演進升級,觀察其使用情況以及適時銷毀數據。

創建提供這種使能水平的自助服務平臺是一項巨大的技術和產品開發挑戰。不過,它的核心是傳統的內部軟件產品開發可以從實現最常見的用例開始,再逐步地擴展平臺的功能。

這樣,可以避免了構建重復的基礎設施,因為沒有將基礎設施平臺團隊拉入中心化的數據所有權中。這樣一個與領域無關的平臺團隊可以更好地進行擴展,因為其成員不需要跟進特定領域的難題和所有業務領域的需求。相反,那些領域數據團隊應該積極地培養和維護這些詳盡的領域知識。因此,如果能夠正確地關注重點,一個中型團隊就能夠可持續地開發和維護共享的數據基礎設施平臺。

共享的自助服務數據基礎設施平臺的另一個重要優點是,除了避免重復工作外,還關乎數據治理和標準化。如果對于領域數據團隊而言,使用平臺的工具提供數據要比通過構建自己的基礎設施還方便,那么通過這些平臺工具來實施某些標準將變得很容易。這樣,標準化和一定程度上的治理就會由便利性驅動。

因此,在上面概述的關于去中心化數據所有權的三個問題中,僅剩下一個數據質量的相關問題。現在,中心化團隊無法承擔數據質量的責任。如今,數據質量的責任無論如何也不能由一個中心化的團隊以可擴展和可持續的方式來承擔。沒有任何一個團隊可以針對所有業務領域建立足夠的領域專業知識來確保數據質量。這就是數據質量的意義:它不是對數據形態的普遍保證,而是與數據的具體內容,語義和演進的息息相關。

但是,單純以去中心化的責任制還不能解決這一挑戰。為此,產品思維開始發揮作用。需要激勵領域數據團隊以可靠的方式提供高質量的數據,例如通過使預算與數據消費者的數量和消費滿意度相匹配。這樣,領域數據團隊將嘗試提高其數據的價值,并嘗試滿足其數據消費者的需求。

最后總結一下,我們需要建立三種方法,以實現具有去中心化數據所有權的可擴展和可持續的數據格局:

使用領域驅動設計作為主要手段構建數據,并將領域(或子域)的完整端到端所有權分配給一個能夠滿足其職責所需的跨職能團隊。

利用平臺思維,投資創建共享且與領域無關的自助數據基礎設施平臺。該平臺沒有中心化的數據所有權,而是專注于支持和促進數據生產者和消費者者之間的直接協作。

利用產品思維,激勵領域數據團隊提高高質量的數據以滿足數據消費團隊的需求。

fqj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據分析
    +關注

    關注

    2

    文章

    1429

    瀏覽量

    34021
  • 數據網格
    +關注

    關注

    0

    文章

    7

    瀏覽量

    6120
收藏 人收藏

    評論

    相關推薦

    云計算與數據中心的關系

    設備,以及冗余的數據通信連接、環境控制設備、監控設備和各種安全裝置。數據中心是全球協作的特定設備網絡,基于互聯網的相關服務增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬
    的頭像 發表于 10-24 16:15 ?291次閱讀

    數據中心虛擬應用案例

    數據中心虛擬應用案例展示了虛擬技術在提高資源利用率、降低成本、增強系統靈活性和快速響應等方面的顯著優勢。以下是一些具體的數據中心虛擬
    的頭像 發表于 10-24 15:18 ?332次閱讀

    數據倉庫數據庫的主要區別

    數據倉庫數據庫是兩個在信息技術領域中常見的概念,它們在數據管理和分析方面發揮著重要作用。盡管它們在某些方面有相似之處,但它們在設計、目的和功能上存在顯著差異。本文將介紹數據倉庫
    的頭像 發表于 07-05 14:57 ?470次閱讀

    工業數據中臺的功能和應用場景

    。 實時數據流處理和批量數據處理。 2.數據存儲與管理: 提供分布式存儲解決方案,如Hadoop、HBase等。 數據
    的頭像 發表于 07-04 16:18 ?311次閱讀

    什么是數據數據數據倉庫有什么區別?

    從本質上說,數據就是一個信息資源庫。人們常常將數據數據倉庫混為一談,但兩者在架構和滿足的業務需求上都不一樣。尤其是,隨著社交媒體
    的頭像 發表于 05-20 12:38 ?577次閱讀
    什么是<b class='flag-5'>數據</b><b class='flag-5'>湖</b>?<b class='flag-5'>數據</b><b class='flag-5'>湖</b>和<b class='flag-5'>數據倉庫</b>有什么區別?

    數據中臺、數據倉庫數據治理與主數據的定位與差異

    在數字化時代,大數據已經成為企業運營和決策的重要資產。為了更好地管理和利用這些數據數據中臺、數據倉庫數據治理和主
    的頭像 發表于 05-08 10:40 ?413次閱讀

    #mpo極性 #數據中心mpo

    數據中心MPO
    jf_51241005
    發布于 :2024年04月07日 10:05:13

    模塊機房:數據中心的未來

    隨著數字轉型加速,數據中心已成為企業運營的核心。傳統的數據中心面臨空間利用不足、能源效率低下、擴展性差和維護成本高等問題。模塊機房應運而生,它不僅克服了傳統設計的局限,還為
    的頭像 發表于 03-12 17:26 ?865次閱讀

    #永久鏈路 #信道測試 #數據中心

    數據中心
    jf_51241005
    發布于 :2024年02月23日 10:17:58

    華為推出全新數據解決方案及全閃存新品

    近日,華為在數據存儲新春新品發布會上,向全球展示了其全新的數據解決方案,以及專為商業市場與分銷市場設計的全閃存存儲新品。這些創新產品的推出,標志著華為在
    的頭像 發表于 02-21 10:35 ?613次閱讀

    微模塊數據中心的優勢

    微模塊數據中心是以模塊、標準的架構和高效高可靠的UPS、精密空調等靈活組合于一體打造的模塊數據中心基礎設施,可實現靈活快速部署、高效節
    的頭像 發表于 01-19 13:53 ?632次閱讀

    構建高效數據生態:數據庫、數據倉庫數據、大數據平臺與數據中臺解析_光點科技

    在數字的浪潮中,一套高效的數據管理系統是企業競爭力的核心。從傳統的數據庫到現代的數據中臺,每一種技術都在數據的旅程中扮演著關鍵角色。本文將
    的頭像 發表于 01-17 10:20 ?348次閱讀

    #光纜水峰 #綜合布線光纜 #數據中心

    數據中心光纜
    jf_51241005
    發布于 :2024年01月15日 09:43:26

    #預端接光纜 #24芯光纜 #數據中心

    數據中心光纜
    jf_51241005
    發布于 :2023年12月08日 11:01:21