在本文中,我們將介紹云計算環境中流行的大數據框架,并確定這些大數據框架的某些屬性,并探討與之相關的一些最大障礙和問題。本文將按資源管理大數據框架的主要屬性進行分類,將它們與具有類似性質的其他框架進行比較,并提出與使用它們相關的推薦最佳實踐。
介紹
盡管遷移到云計算的好處是眾所周知的,但在大數據分析的背景下,其好處更為明顯。大數據所固有的是使用PB(即將成為EB和ZB)數據。業務分析要求使用數據密集型應用程序,而云環境的可伸縮性對于使它們的部署可行是必不可少的。利用云還可以促進整個組織之間更輕松的協作和連接,簡化數據共享并授予更多員工訪問相關分析的權限。
IT領導者當然認識到將大數據轉移到云中的好處,但是要讓主要利益相關者和高層管理人員購買該概念會更加復雜。但是,利用云和大數據的組合確實具有商業上的實際意義,因為它將允許對業務進行優化查看,并將促進基于相關數據的決策。
例如,生產實物產品的公司的首席運營官可以極大地受益于訪問有關供應鏈優化的數據以及跟蹤缺陷的有效機制。同樣,尋求提高客戶忠誠度和參與度的CMO,以及尋求增加收入,降低成本和進行戰略投資的新途徑的CFO,也都依賴數據來制定決策。無論從哪個角度來看,基于云的敏捷平臺和大數據的利用將驅動貴公司的運營和實現目標。
如2020-2025年大數據市場報告所述,全球大數據市場規模將從2020年的1389億美元增加到2025年的2294億美元。
大數據和云計算的歷史
龐大的分析項目高度依賴有效的資源管理,因為數據平臺利用大量可視化的硬件資源來降低成本并優化結果。架構的復雜性使得這種管理或資源具有挑戰性。因此,應認真考慮將要處理多少數據,并設計出既有利于當前應用,又有利于未來應用的最佳性能的體系結構。
直到最近,網格,計算機集群和其他高性能超級計算機仍被用作高計算項目的資源。群集計算是
此類框架的主要環境。網格計算環境(或其他分布式HPC環境)中的虛擬組織管理專用于應用程序需求的資源(外部和內部),盡管近年來有關將此執行轉移到云的討論一直是討論的熱門話題。出于安全原因,吸引本地存儲敏感數據不足為奇,但是當存儲量變得無法內部存儲(例如企業中的數據)時,組織發現必須遷移到云存儲解決方案。
盡管云計算可能是增長大數據的核心,但是針對大數據應用程序的基于云的解決方案與常見的解決方案有很大不同。傳統的云解決方案提供了一些松散相關的應用程序,其細粒度的體系結構旨在為大量用戶提供服務。這些用戶通常在不同的位置獨立運行,并且通常擁有非共享或私有數據。該數據可能主要是面向批處理的,并且包含許多交互。通常會對其進行重新定位,以適應高度動態的資源需求。話雖如此,大數據與常規擴展解決方案共享一些共同的屬性,以及對資源自動管理的要求。
云計算企業的成長和成熟正在完善和改善云環境,以使其更加敏捷和高效。云提供商也在擴展其服務,其中通常包括數據湖架構。該平臺提供了增強的生產力套件,可用于BI,云操作,數據庫,OLAP,數據倉庫和其他開發工具。
大數據云計算中的資源管理框架
已經在不同的應用領域中使用了各種計算基礎結構,以利用商品計算資產以批處理模式處理大型數據庫。在這里,我們旨在探索云計算環境中使用的一些流行的大數據資源管理框架。下圖有助于直觀地繪制出大數據管理結構樣式的分類。
比較大數據框架
當代企業,研究社區和IT行業都在感受到大數據云計算的影響,涌現出一些變革性和顛覆性的大數據解決方案和技術,以促進許多企業的創新和數據驅動的運營決策。現代數據云計算服務提供了基礎架構,技術和大數據分析,可幫助加快大數據分析的步伐并降低其成本。
盡管有許多選項可用,但關鍵在于選擇最適合特定業務的框架。這種選擇往往會歸結為應用需求,并權衡每種情況的優點和缺點。其中許多是基于應用程序使用場景的,并且可能涉及一些折衷。在云中部署大數據應用程序之前,需要確定幾個關鍵因素。現在,我們將討論選擇每種主要管理框架類型的利弊。
1.處理速度
在評估不同資源管理結構的功效時,處理速度是一項重要的性能衡量工具,它基于對內存或磁盤的數據傳輸讀寫(I / O)的便利性。它還測量特定時間段內兩個通信單元之間的數據傳輸速率。有理由認為某些資源管理框架會表現更好。但是,研究發現,盡管某些框架在執行較小的任務時表現出更好的性能,但其他框架在處理更大的數據源集時卻要快得多。但是,隨著數據集輸入的增加,所有框架的“加速”比率都降低了。
2.容錯
測量一個組件發生故障時系統的其余部分如何繼續運行稱為容錯。在高性能計算系統中執行特定任務時,將評估數百個錯綜復雜的互連節點。一個導致失敗的結果應該對整個計算的影響很小或沒有影響。一些框架比其他框架具有更高的容錯能力,其中某些框架在涉及大量數據傳輸的情況下會超出容錯范圍。使用PageRank算法進行的研究已用于對多種框架的性能進行實驗,發現在較小的數據集中,性能可以很好地衡量,但是隨著數據集的增長,“加速”性能下降。某些數據集可能變得如此之大,以至于某些系統無法處理它們而不會崩潰。
3.可擴展性
企業依靠及時處理數據來解決高價值業務問題。通過能夠同時大規模執行多個計算,可以減少與業務相關的計算的工作量,總體時間和復雜性。通過在運行時分配額外的資源來適應大負載或工作量(或大小)變化的情況稱為可伸縮性。可伸縮性可用于增加所需的資源(按比例放大)或減少所需的資源(按比例縮小)。因此,可伸縮性涉及將多個條件組合到單個算法中。研究表明,框架也可以在不同級別上產生可伸縮的性能。
4.安全性
大多數大數據應用程序都不再使用內部數據存儲,而是選擇遷移到云環境中,使不同的用戶可以訪問或記錄相同的隱私,從而輕松獲得信息。數據完整性和安全性一直是最重要的,但是隨著大數據平臺廣泛采用云計算服務,這一方面會進一步擴大。由于暴露給出于自身原因而尋求數據的多個用戶,這反過來又增加了數據所面臨的隱私和安全性的風險級別。
安全性分為幾類,每一種都需要通過各種級別的加密對身份驗證和授權進行不同級別的訪問。某些框架在其訪問示意圖中使用加密機制,而其他框架則允許對其訪問和加密進行密碼控制。盡管如此,其他人仍未提供任何系統級內置安全性。
結論
在速度和數據量方面的增長速度可能是驚人的,特別是對于年輕的組織。但是,利用云計算可以從根本上改變任何運營的效率和數據驅動的組織。
您的組織是否已將大數據遷移到云?我們很想聽聽此舉如何影響您的數據分析質量和速度。請與我們分享這如何幫助您改善組織運作。
責任編輯人:CC
-
云計算
+關注
關注
39文章
7744瀏覽量
137208 -
大數據
+關注
關注
64文章
8864瀏覽量
137307
發布評論請先 登錄
相關推薦
評論