盡管大數據發展到現在,已經有了一定的技術和商業積累,但還有很多難題等待我們解決。在眾多的難題中,亟待解決的主要挑戰有:運維挑戰、成本挑戰和安全挑戰。
如何應對這些挑戰?有沒有具體的解決方案?針對這個問題,筆者與在亞馬遜云科技任數據架構師的朋友 will(英文名)進行了深度交流。
我們經常說:當今社會已經進入了大數據時代。這句話,容易讓人理解為在過去數據似乎離人們很遠,或者說過去的時代只有小數據甚至無數據。
事實上,自從人類誕生之日起,數據就承載著人類對自然萬物、生產生活的記錄和表達。從古代的“結繩記事”,到現在的“智能儀表盤”,從傳統數據到網絡數據,從小數據到大數據,變化的只有承載數據的載體和使用數據的方法/技術,而數據作為大千世界的符碼,一直存在,且亙古未變。萬物皆可產生數據,萬物皆可數據化。
現如今,人們經常將數據比作石油和金礦,其實在我看來,這只是從經濟的視角來闡述數據的價值,而數據的價值遠不止于此。數據中既有宇宙星空的奧秘,也有人類社會的百態。誰掌握了數據,誰就掌握了未來!
激活數據潛能,釋放數據價值,已經成為當今社會各界的重要共識。于是乎,我們看到越來越多的組織,將數據作為一項重要的資源對其進行采集、存儲、管理和利用。
**01 **
大數據技術的發展歷程
隨著人們對數據越來越重視,大數據的存儲和處理的技術也有了較快的發展。注意:這里的數據是指已經電子化的數據,龜殼上的甲骨文、泥板上的楔形文字、以及現代在紙質文件等都不在這個范疇。依據筆者的觀察,數據存儲和處理技術主要經歷了4個發展階段:
1、傳統SQL數據庫
傳統SQL數據庫也叫SMP架構數據庫(全稱是Symmetrical Multi-Processing,SMP),其核心原理是多處理器共享統一的內存和磁盤等,應用場景以單機為主。我們常見的Oracle、MySQL、SQLServer、DB2等都屬于SMP數據架構,這種架構一直統治了數據存儲江湖40年之久,且在“小數據”管理領域至今依然經久不衰。
2、MPP數據架構
隨著DT時代的到來,整個社會數據大爆炸。企業動輒就需要處理TB級數據量,而SMP這種共享資源的數據存儲架構對于海量數據的處理顯得越發吃力。于是,一種大規模、分布式數據存儲架構出現了,它就是MPP (Massively Parallel Processing)架構,它可以 將查詢分散到不同節點并行執行 ,顯著地提高了數據查詢的性能,MPP的出現為數據倉庫和數據分析平臺提供了出色的解決方案。MPP數據架構的代表有:Redshift、Terdata、GreenPlum、Vertica等。
3、Hadoop數據架構
數據的激增,帶動了數據架構的變革,以Hadoop、spark為代表的開源數據庫產品,對傳統SQL數據庫帶來了巨大的影響和沖擊。**Hadoop的特點是不僅能夠存儲和處理結構化數據,還能夠對半結構化數據、非結構化數據的進行采集、存儲、管理和使用。**Hadoop不是單一產品,而是一個龐大的軟件生態系統,部署通常需要熟練掌握一系列工具,包括HDFS,Yarn,Spark,Impala,Hive,Flume,Zookeeper和Kafka等等。
4、云原生數據架構
云計算的出現和發展,讓企業 IT 基礎設施云化,應用轉向云端。與此同時,行業內也出現了云原生架構的數據庫,其核心是充分發揮云基礎設施帶來的各種資源彈性的優勢,通過 將計算和存儲分離,提高數據庫資源配置效率,實現計算和存儲彈性擴展,按需分配 ,為客戶帶來超高的ROI。
以亞馬遜云科技的云原生數據倉庫Redshift為例,Redshift采用存算分離的云原生架構,底層數據是在S3上,支持存儲和計算資源的完全獨立擴展、自動伸縮,使得 Redshift 具備大數據量下的高并發計算能力。值得一提的是Redshift 還支持機器學習算法,用戶可以用SQL方式直接創建機器學習模型,這讓數據分析挖掘變得更加簡單。
02
大數據所面臨的主要挑戰
“大數據蘊含大價值”,這是毋庸置疑的。對企業而言,盡管大數據發展到現在,已經有了一定的技術和商業積累,但還有很多難題等待我們解決。在眾多的難題中,亟待解決的主要挑戰有:運維挑戰、成本挑戰和安全挑戰。
1、大數據的運維挑戰
云計算、大數據技術的發展,尤其是開源Hadoop體系的應用,讓數據運維工作迎來了巨大的挑戰。首先,企業普遍缺乏掌握大數據技術的專業化人才,很多情況下,企業負責數據人員既要做需求,又要做開發,還要做運維。情況好一點的,將大數據開發和運維剝離出來,但是面對龐大的Hadoop體系和不斷的技術發展,讓大數據運維變得越來越困難。其次,隨著數據量和數據應用的激增,交付運維的東西也會越來越多。大數據運維不僅是服務啟停、監控、告警、作業調度等淺層次的運維工作,更多的需要肩負起性能調優、資源伸縮、故障處理等工作,以確保大數據的穩定運行。
2、大數據的成本挑戰
對于企業而言, 大數據項目的部署有時候給企業帶來的不是“大價值”,而是“大成本”。 首先,企業需要考慮的是新增硬件的費用,例如:機房、服務器、存儲以及電力消耗等。其次,在軟件方面,企業盡管可以選用開源的Hadoop體系來搭建大數據平臺,但也不得不為大數據的設計開發和日常運維付費。當然,也有企業選擇了云數據架構解決方案,但是在購置云服務時,沿用過去的本地化部署的“超配”思維,資源過度配置,不必要的容量以及環境的可見性不良等問題,導致了云計算成本失控。
3、大數據的安全挑戰
大數據的安全問題,一直是業內的一個難題。大數據所存儲的數據非常巨大,也非常容易被黑客盯上。企業采用分布式數據架構進行存儲,而這種架構數據存儲的路徑視圖相對清晰,導致數據保護相對簡單,黑客較為輕易利用相關漏洞,實施不法操作。甚至有的企業有 **“開源等于安全” ** 的錯誤認知 ,于是積極擁抱開源軟件。事實上,開源軟件的漏洞并不少,而由此引發的數據安全和泄露問題也在逐年攀升。
03
尋求解決方案,積極應對挑戰
大數據的3大挑戰,是當今每個企業不得不面對的問題。但要如何應對,有沒有具體的解決方案?
近日,針對這個問題,筆者與在亞馬遜云科技任數據架構師的朋友 ** will ** (英文名)進行了深度交流,will給出的解決方案是——Serverless data,他認為 Serverless data將是基于云原生數據服務的下一代技術架構的新常態 。
說實話,對于Serverless我倒是聽過,但什么是Serverless data服務,以及它是否真的可以解決大數據的挑戰,我卻是丈二和尚摸不著頭腦,于是只能虛心請教!在一番交杯換盞、深度交流之后,對于這個全新的數據架構,我終于有了一定的認知,于是迫不及待分享給大家。
1、先說一說什么是Serverless
Serverless是一種云計算架構模式,也稱為無服務器計算。 這個術語最早出現在 2012 年左右的一篇文章里,作者 Ken Fromm 對它的解釋是:Serverless一詞并不意味著不再涉及服務器,它只是意味著開發人員不再需要考慮那么多的物理容量或其他基礎設施資源管理責任。通過消除后端基礎設施的復雜性,無服務器讓開發人員將注意力從服務器級別轉移到任務級別。
Serverless是一種事件驅動的計算模型,開發者不需要關心底層的服務器和基礎設施,只需要編寫處理邏輯代碼,并將其上傳到云服務提供商的平臺上。這種架構模式具有高度的可擴展性、靈活性、可靠性和低成本等優點,適合于處理復雜的高并發應用場景。
據朋友介紹,亞馬遜云科技是Serverless技術的開創者和引領者。雖然我知道華為、阿里、騰訊也都推出了自己的Serverless產品,但朋友說亞馬遜云科技在這個領域全程領跑。沒有實質證據,我就不反駁他了,哈哈哈!
2、再說說什么是Serverless data
Serverless data是指一種無服務器架構的數據處理方式,它利用云服務提供商的基礎設施和平臺服務,以事件驅動的方式來執行和管理數據處理任務。在Serverless數據處理中,開發者不需要關注服務器的運維和部署,只需要編寫處理邏輯代碼,將其部署到云服務提供商的平臺上,然后通過事件觸發器來觸發處理任務的執行。 這種處理方式具有高可擴展性、高可靠性、低成本等優點,適合于處理大規模、復雜的數據處理任務。 以Serverless架構的數據庫為例,它的工作原理如下:
3、Serverless data能夠解決的問題
在聽完will對Serverless data的介紹,我大致理解Serverless data在數據計算和存儲方面確實有一定的優勢,但will還提到了亞馬遜云科技的全線Serverless data,據說可以有效解決企業數據管理和應用中的各種挑戰和問題。
“啥是全線Serverless data?它到底能解決哪些問題?” 在我的不斷追問之下,will給出了如下回答:
**第一,Serverless data無需運維。**使用 Serverless Data,用戶無需關心服務器、操作系統、網絡配置等底層細節,只需要編寫代碼,托管數據庫服務或數據分析服務,它會自動托管運行環境,為用戶提供高可用的計算資源和彈性擴縮容能力,從而免去了傳統架構中的服務器運維成本和風險。
第二,Serverless data可以有效降低IT成本。 使用 Serverless Data,用戶只需要在需要時啟動服務,無需預先為未來的峰值流量或訪問量準備資源,也無需為不使用的空閑資源付費。簡單來講就是,Serverless data不需要用戶預留集群容量,而是根據任務需求實現資源的自動伸縮,從而提高了資源利用率和成本效益,避免資源的浪費,有效降低企業的 IT 成本。
第三,Serverless data支持數據的實時處理。 Serverless data可以通過事件觸發器和調度器,自動觸發和調度數據處理任務的執行,響應實時事件,處理實時數據流并生成實時數據結果。
第四,Serverless data支持數據治理。 Serverless data可以通過編寫數據處理邏輯代碼,對數據進行清洗、轉換和格式化等操作,讓企業的數據資源轉化為數據資產。云服務廠商也會提供一些列基于Serverless架構的數據治理和管理工具,支持對企業數據進行管理、監控和維護。在數據安全防護方面,利用云服務廠商的安全防護體系,可以有效保證數據的安全和隱私。
**第五,Serverless data還能支持數據分析和挖掘。**以亞馬遜為代表云服務廠商在數據分析和挖掘方面也提供了一系列的Serverless架構的產品和工具,利用這些工具,可以對大量數據進行分析、挖掘和可視化,以發現數據中的有價值信息,讓數據為業務賦能,助力企業實現數字化轉型。
第六……
第七……
吧啦吧啦……&*#¥#@~##!
will這個技術控就是這樣,聊起技術來沒完沒了。雖然我自認為技術也還行,但跟他比起來還是自愧不如……
04
亞馬遜云科技 Serverless Data
通過這次與will的交流,我確實也學到了不少東西,對 Serverless 和 Serverless Data 也有了更深的認知。臨別之際,他丟下了一個亞馬遜云科技 Serverless 服務介紹材料。讓我們一起來看一下號稱引領 Serverless 技術發展的亞馬遜云科技,在數據服務這個領域到底有哪些無服務器的服務,以及能夠給企業帶來哪些價值!
-
SQL
+關注
關注
1文章
760瀏覽量
44080 -
MPP
+關注
關注
0文章
24瀏覽量
10582 -
大數據
+關注
關注
64文章
8864瀏覽量
137308
發布評論請先 登錄
相關推薦
評論