數(shù)據(jù)湖并不是一個新概念,大概在十多年前,從有Hadoop開始,就有很多人提出這樣的設想。面對海量數(shù)據(jù)增長,要想挖掘數(shù)據(jù)價值,首先得有一個能夠存儲各類數(shù)據(jù)的“湖”,這個湖的“蓄水能力”要足夠強大,能存儲、分析和處理各類數(shù)據(jù),包括結構化數(shù)據(jù)、非結構化數(shù)據(jù)、機器數(shù)據(jù)以及來自物聯(lián)網設備的數(shù)據(jù)等等。
之后,隨著大數(shù)據(jù)、云計算以及云存儲技術的不斷成熟,數(shù)據(jù)湖解決方案被主流云計算廠商極力推崇,并且演繹出不同版本。走到今天,數(shù)據(jù)湖解決方案似乎已足夠成熟,但從應用場景來看,一切才剛剛開始,還有大量變革空間,這也是阿里云為什么要重構數(shù)據(jù)湖解決方案,主推下一代技術的根本原因。
什么是下一代數(shù)據(jù)湖解決方案?
如何理解阿里云數(shù)據(jù)湖解決方案的最新特性?阿里云智能存儲產品資深總監(jiān)陳起鯤認為,數(shù)據(jù)湖解決方案由數(shù)據(jù)分析架構演化而來。
早期大數(shù)據(jù)分析架構,是強耦合擴容模式,同一份數(shù)據(jù)需要在不同的計算集群中重復拷貝,空間利用率低,計算資源過剩;但數(shù)據(jù)是不斷積累狀態(tài),并且有波峰波谷期,為了滿足業(yè)務需求,承載更多數(shù)據(jù),計算和存儲要一起擴容。因為是兩套系統(tǒng),從生產導入數(shù)據(jù)肯定需要時間,所以會出現(xiàn)數(shù)據(jù)導入緩慢的狀況,最終無法實時洞察業(yè)務。
這時,聰明人就提出了數(shù)據(jù)湖架構。早期的數(shù)據(jù)湖架構一般是分布式文件存儲,可以橫向擴展,通過糾刪碼提高資源利用率;同時,計算和存儲是分離狀態(tài),你可以按需擴展算力。另外,底層是分布式文件存儲,基于塊存儲、對象存儲等很多協(xié)議,用戶可以把結構化和半結構化數(shù)據(jù)放在一起,數(shù)據(jù)可以統(tǒng)一管理,底層的分布式存儲對元數(shù)據(jù)、小文件和性能都有一定提升。
對于用戶來說,數(shù)據(jù)湖帶來的好處顯而易見,不管是過去的數(shù)據(jù)倉庫,還是現(xiàn)在的大數(shù)據(jù)、運營數(shù)據(jù)、交互式查詢,以及可視化數(shù)據(jù)、實時分析以及預測分析數(shù)據(jù),都能基于數(shù)據(jù)湖進行存儲、分析,進而獲得更大的商業(yè)價值。
而從服務提供商的角度來看,各家都在說自己是最先提供數(shù)據(jù)湖解決方案的企業(yè)。事實上,數(shù)據(jù)在哪里,分析就在哪里。這也是為什么云廠商在推出數(shù)據(jù)庫產品的時候,很多用戶都愿意去嘗試。
因為產品本身就在承載互聯(lián)網場景應用,具有海量數(shù)據(jù)云上處理能力,有更強大的計算引擎,能真正和生產環(huán)境融合在一起。云與互聯(lián)網應用場景結合,才能孕育出最強大功能的解決方案,而在這方面,誰更具有獨特優(yōu)勢?非阿里云莫屬!
至于,阿里云的數(shù)據(jù)湖解決方案到底在哪些地方進行了重構?其實一句話就可以概括,那就是“云湖共生,數(shù)倉同步”。
云湖共生,數(shù)倉同步
“作為業(yè)內首個云原生、企業(yè)級數(shù)據(jù)湖解決方案,阿里云數(shù)據(jù)湖解決方案可提供EB級數(shù)據(jù)存儲、分析能力,能實現(xiàn)一站式湖存儲、湖加速、湖管理、湖計算,幫助企業(yè)深入挖掘與分析數(shù)據(jù)。”陳起鯤強調,數(shù)據(jù)湖雖然是一個早已存在的概念,但阿里云的數(shù)據(jù)湖在繼承以往優(yōu)勢的基礎上已演繹出新的特色。
首先,最新數(shù)據(jù)湖解決方案要能承載移動、互聯(lián)網、IoT業(yè)務的生產數(shù)據(jù)。數(shù)據(jù)湖不應該只是解決分析環(huán)節(jié)的問題,而是要和生產環(huán)境結合。尤其在現(xiàn)代業(yè)務環(huán)境下,很多企業(yè)的大部分數(shù)據(jù)都來源于移動應用或者社交媒體,這種數(shù)據(jù)搬到分析引擎上,通常都是PB級別,如果等搬完后再分析,已不具備實時性。
所以,真正的數(shù)據(jù)湖解決方案必須基于企業(yè)級的生產環(huán)境做大數(shù)據(jù)分析,在線生成環(huán)境產生的數(shù)據(jù),直接可以分析。其次,必須是一個能承載EB級數(shù)據(jù)量的數(shù)據(jù)湖。其三,具有秒級響應能力,有SLA的保證,能滿足高性能和高彈性需求。其四,能對數(shù)據(jù)加密,并對數(shù)據(jù)高效管理,確保業(yè)務安全。
如何理解這些能力呢?其實一切都是客戶應用價值驅動。比如:五年前,你問一個客戶,建了一個多大量的數(shù)據(jù)湖?用來干什么?他會說,有多少個TB,主要功能就是每天晚上做數(shù)據(jù)分析,等早晨把數(shù)據(jù)分析的結果打印出來,給領導看,用于當天決策。
但是五年后的今天,很多分析都是PB級,領導需要實時看到分析結果。如何讓生產環(huán)境具有高度的彈性和穩(wěn)定性?如何讓數(shù)據(jù)分析和業(yè)務保持強耦合狀態(tài)?一定要有SLA的保證!另外,數(shù)據(jù)是企業(yè)最寶貴的資源,必須要安全地存放,統(tǒng)一管理。
基于客戶應用場景的最新需求,阿里云在底層技術以及整體架構上進行了四個方面的重構。
阿里云提供了全球領先的、最高水平的SLA,引領對象存儲可用性SLA進入5位數(shù)。阿里云承諾,在每十萬次請求中,單可用區(qū)錯誤概率不超過10次,多可用區(qū)錯誤概率不超過5次,這比其他云廠商提供的服務提高了10-20倍的可用性。同時,最多有12個9的持久性設計,有多層的冗余架構設計和主動排查故障的能力。
能支持全球數(shù)十EB級數(shù)據(jù)規(guī)模。在阿里云的數(shù)據(jù)湖應用場景中,每天有上萬億次的讀
寫或者API調用請求,因為數(shù)據(jù)量非常大,通常會分標準型、低頻訪問型、歸檔型,用戶可以按數(shù)據(jù)類型分類。同時,數(shù)據(jù)架構也是強一致性模型,用戶可以做全生命周期管理,系統(tǒng)會提供Bucket清單,方便企業(yè)盤點、查找資源。所以,用戶如果使用阿里云的數(shù)據(jù)湖解決方案,等于在用上EB別的數(shù)據(jù)管理功能去管理企業(yè)的數(shù)據(jù)。
用戶可以靈活、更具彈性地選擇計算引擎。在算力方面,阿里云承諾在單客戶、單可用區(qū)3分鐘提供50萬核vCPU交付能力。在存儲上,阿里云可以提供上TB級別的數(shù)據(jù)吞吐量,同時有海量數(shù)據(jù)的處理能力。在現(xiàn)實業(yè)務環(huán)境中,企業(yè)應用往往遭遇巨大的性能挑戰(zhàn),如果有一個資源爆掉,其他資源會受影響。比如:在一個Bucket里面,可能會有很多業(yè)務在同時分析,會互相干擾。
即使只有一個業(yè)務在分析,也有腳本的優(yōu)先級。為了從性能方面保障高可用性,阿里云提供了同Bucket分業(yè)務的QoS性能隔離功能,滿足客戶不同業(yè)務分析需求。最重要的是,不管是機器學習引擎還是深度學習引擎,都可以自然接入阿里云OSS, 讓一份數(shù)據(jù)用于多個計算引擎。
數(shù)據(jù)安全。很多人擔心上云后數(shù)據(jù)不安全。實際上,只有上云后數(shù)據(jù)才安全。在阿里云上,只需點擊幾個按鈕,就可以全鏈路加密云上數(shù)據(jù),并且密鑰可管可控,你可以集成阿里云的密鑰管理服務,也可以集成自己的KMS服務,系統(tǒng)支持多種加密算法。
另外,云上數(shù)據(jù)加密,不能影響性能,還要有防誤刪、自帶DDoS攻擊防護功能。可能有人會問,那萬一阿里的人干了什么壞事,怎么辦?這點無需擔心!阿里云資源的所有操作,都通過日志這種不能篡改的方式記錄,并且阿里內部對用戶資源的日志可以實現(xiàn)對外透明化,你可以通過第三方審計來核實。
值得一提的是,為了更好地提升客戶體驗,阿里云圍繞數(shù)據(jù)湖解決方案推出了一系列新產品。比如:對象存儲OSS加速器功能,主要用于數(shù)據(jù)湖重復復讀場景,能極大地解決讀吞吐挑戰(zhàn),從根本上解決數(shù)據(jù)讀取的一致性問題。
同時,阿里云針對對象存儲OSS,還重磅發(fā)布了冷歸檔存儲類型產品,提供接近磁帶級的成本,并解決磁帶方案在兼容性、數(shù)據(jù)失效、取回效率低等的問題,是海量數(shù)據(jù)長期留存的最佳解決方案。另外,在構建數(shù)據(jù)洞察力方面,開源Spark性能差,資源成本較高,阿里云最新發(fā)布的Databricks數(shù)據(jù)洞察產品內置了商業(yè)版的Spark和DataLake,可以為用戶帶來高于開源Spark50倍的性能計算能力,確保結構化數(shù)據(jù)、半結構化數(shù)據(jù)以及流式數(shù)據(jù)處理的高性能、高可靠和彈性擴展。
目前,阿里云最新推出的數(shù)據(jù)湖解決方案已經在互聯(lián)網、金融、教育、游戲等技術前沿領域落地,尤其在人工智能、物聯(lián)網、自動駕駛等擁有海量數(shù)據(jù)場景的新興行業(yè),未來大有廣闊空間。另外,混合云趨勢的到來,也會加速推動數(shù)據(jù)湖解決方案的落地。
公共云+私有云的結合,導致很多企業(yè)會把一部分數(shù)據(jù)遷移到云端,因為相對于IDC架構,云更有彈性、技術創(chuàng)新更快,企業(yè)成本更低、業(yè)務迭代可以更敏捷。同時,隨著業(yè)務數(shù)字化、在線化,數(shù)據(jù)的容災保護更加重要,企業(yè)會更重視對生產環(huán)境的災備。而從降本增效的角度考慮,企業(yè)也更愿意對數(shù)據(jù)進行冷熱分層,把一部分數(shù)據(jù)留在本地,把剩余的數(shù)據(jù)放在云端,然后在云上可以基于大數(shù)據(jù)、AI來做訓練和分析。
總體來看,數(shù)據(jù)湖的未來發(fā)展前景更加可期,而隨著企業(yè)應用上云進程的加快,阿里云將勇往直前,秒殺所有對手!
責任編輯:xj
-
互聯(lián)網
+關注
關注
54文章
11015瀏覽量
102087 -
數(shù)據(jù)中心
+關注
關注
16文章
4517瀏覽量
71637 -
阿里云
+關注
關注
3文章
922瀏覽量
42780
發(fā)布評論請先 登錄
相關推薦
評論