隨著互聯網科技的不斷進步,產生的數據將以成倍速度進行增長,據IDC預測,到2025年全球數據總量將會達到175ZB。如果要把175ZB用8TB的磁盤存下來的話,那就需要230億塊磁盤來存儲這些數據,如果每塊磁盤的成本是1300元,那要完整存儲這些數據,就需要付出30萬億的存儲硬件成本投入,相當于國內一年生產總值的三分之一。
逐步攀升的數據存儲需求和高昂存儲成本的沖突下,很多企業都將面臨著大量數據無法得到有效存儲和數據流失的問題。對此,UCloud存儲產品經理周恭元在10月23日剛結束的TIC2020技術分論壇上帶來了《海量數據云歸檔存儲最佳實踐》的議題分享,圍繞企業數據歸檔面臨的存儲問題及需求,重點介紹了數據存儲的分層價值,以及UCloud新一代歸檔存儲的可靠性優勢及三大適用場景。本文整理自演講內容,供大家參考學習。
傳統歸檔存儲面臨的兩個問題
首先,周恭元分享了今年疫情特殊時期碰到的兩個公司的遭遇。
第一件事情,大約4月份的時候,某電商公司一個做DBA的朋友來咨詢我,本地硬盤已經刪除了的文件有沒有辦法恢復?我便產生了一些疑問,為什么數據庫運維要管這些呢?后來詳細聊了下事情的原委,才知道他們公司由于設置了30天的數據庫日志備份策略,但是正好碰上這次疫情休假時間超過了一個月,導致一些年前的數據庫日志數據已經被刪除了。究其原因,根本的問題還是由于公司為了節約成本,使本地歸檔存儲的空間有限造成的。
第二件事情,某傳統企業申報項目的核心數據存儲在公司內網的共享文件中,而內網網盤數據與外網不通,導致他們不得不在疫情相對嚴重的時期,還需要專門派人去公司將所需的數據拷出來,浪費了大量精力,同時也存在外出感染疫情的風險。
從這兩件事情,不難看出傳統數據歸檔存儲確實存在著兩個問題:一是本地存儲空間的限制,二是數據交互的不便。而這也正是如今有越來越多的用戶開始選擇云存儲進行數據歸檔的原因。
ZB級數據需要做“冷熱”處理
隨著數據的量級從MB、GB增長到PB、EB甚至ZB級別,就會產生一個很實際的問題,就是企業存儲能力的提升已經遠遠跟不上數據的增長速度。預計到2025年,全球175ZB的數據最終將會流失超過90%。而對企業來說,這流失的90%數據正是需要被長期存儲下來存在價值的數據。
一方面是大量數據無法得到有效的存儲,另一方面這些真正被存儲下來的數據又面臨什么樣的情況呢?
通過分析用戶存放在UCloud公有云對象存儲的數據訪問量可以發現,數據在單位時間內的請求數(我們也稱之為數據熱度),是會隨著時間的推移不斷降低的,也就是說絕大多數據在半年之后都會成為冷數據。然而實際上,大部分用戶還是將這些冷數據存放在與剛寫入這些數據時相同的存儲類型中,造成了大量不必要的成本支出。
針對這樣的問題,UCloud最早在2017年就推出了第一代歸檔存儲產品,2019年針對對象存儲產品的不同存儲類型做了統一,提供了三種不同的存儲類型,單價上由熱至冷,存儲成本分別為標準存儲的一半與四分之一。這樣一來,用戶就可以實現在同一個存儲空間里借助生命周期策略自動對數據進行降冷處理,從而優化存儲成本。
新一代歸檔存儲,突破成本極限
在今年8月份UCloud發布了最新一代歸檔存儲產品,成為了國內率先采用JBOD磁盤陣列與SMR疊瓦式磁盤介質提供公有云歸檔存儲服務的云廠商。在具備分鐘級別取回時效、11個9以上數據可靠性的歸檔存儲產品中,突破了傳統3分錢每GB每月的定價區間,達到了0.024元每GB每月,可以進一步降低20%的成本。
大家知道存儲成本主要由硬件、運營成本構成。UCloud新一代歸檔存儲在國內首次采用西部數據的高密JBOD設備和SMR盤,SMR盤全名為疊瓦式磁記錄硬盤,相較于傳統CMR硬盤,最大區別是,磁道按Zone呈現的疊瓦式分布,這種分布可以以更高密度存儲數據。與36盤傳統機型相比,引入JBOD設備統一管理硬盤并采用高密度SMR盤:單位機架的存儲容量提升5.375倍,硬盤數量增加59%,單塊硬盤存儲空間提升150%。同時借助磁盤休眠的技術,可以降低90%的硬盤能耗。
在降低成本的同時,新一代歸檔存儲自研的全新架構也帶來了更高的可靠性保障,通過雙機頭的故障快速切換,能在數據取回快速的同時提供極高的可用性保障;通過采用Intel大比例糾刪碼冗余策略,歸檔存儲提供了同時4塊硬盤故障情況下的數據可靠性保障,由于歸檔存儲讀取請求較小的緣故,新一代歸檔存儲還引入了定期的一致性校驗應對磁盤的靜默錯誤,以保障數據一致性。
歸檔存儲的三大場景
通過前面的介紹,不難看出歸檔存儲比較適用于一些寫大于讀的數據存儲場景,這類數據和以往對云存儲廣泛適用的讀大于寫的場景正好相反,因此歸檔存儲的應用場景往往是一些已經經過在線處理或者應用的在線數據的近線存儲。由于是近線存儲,數據是具備分鐘級的取回時效,這和需要數個小時甚至按天取回的離線存儲相比會有更高的實時性。
再結合客戶的實際使用,我們可以將歸檔存儲的核心場景匯總為三類,分別為多媒體數據歸檔、歷史數據合規性歸檔以及大數據、AI分析數據的歸檔。
視頻歸檔場景
由于近幾年實時音視頻場景的普及,在線教育和培訓、遠程醫療、視頻會議、娛樂直播需求層出不窮。借助于UCloud實時音視頻服務提供的強大的覆蓋能力,可以實現用戶的就近接入,提供網絡低延遲、低丟包率的音視頻實時通信。
但也正是因為實時音視頻服務的普及,政策監管也逐漸規范化,合規性要求成為了實時視頻業務場景中不可或缺的一個環節。目前不僅泛娛樂直播類平臺通常對直播視頻有6個月的合規性歸檔要求,在線教育、在線醫療也有了更長時間的歷史視頻歸檔的合規性要求。
通過與URTC實時音視頻業務的無縫接入,UCloud歸檔存儲在此次疫情期間幫助了多家在線教育、在線醫療用戶實現了實時音視頻與歷史記錄歸檔的無縫銜接,用戶僅需在每次RTC服務結束后選擇保存視頻,即可將視頻記錄進行歸檔。不僅簡潔易用,無需額外操作;更在降低存儲成本的同時易于歸檔視頻的訪問調取。
數據庫、日志備份場景
一直以來,數據庫和日志的備份問題困擾著許多電商用戶。通常情況下,中小規模的電商公司的整套服務架構都在云上,如果給云主機綁定硬盤用來進行備份,會面臨單點故障的問題,而這些中小企業又沒有能力自己定制數據備份,將數據備份至別的存儲類型中。
對此,UCloud提供了靈活的數據庫備份組件和針對ES集群的備份接入能力,幫助用戶可以快速將MySQL數據庫直接備份至歸檔存儲中,省去了備份到本地再上傳的復雜過程。歸檔存儲同時具備ES集群的接入能力,能夠幫助用戶將歷史日志定時進行云歸檔,為用戶保留更長時間的日志記錄。
UCloud通過幫助客戶進行歸檔方式改造,降低了數家電商公司的數據備份成本,延長備份周期,簡化操作流程,大大降低了用戶數據丟失恢復及歷史日志追溯的難度。
大數據歸檔場景
針對大數據分析場景,UCloud對象存儲服務提供了Hadoop集群的接入工具,甚至在存儲性能上媲美HDFS。過去用戶往往受制于本地HDFS集群的存儲空間,所以將分析后的原始數據丟棄,損失了大量數據價值。通過云歸檔的方式將大數據分析后留下的大量數據樣本和分析結果進行長期存儲,再通過提供的Hadoop集群的接入工具,就能實現將歷史數據激活后,直接在云端進行大數據分析,不用擔心數據二次取回的本地存儲空間壓力。
企業也可以更靈活、彈性地應對數據爆炸帶來的存儲空間壓力,按3年期投入計算,更是比本地搭建相同規模的HDFS集群降低80%以上的成本投入。
寫在最后
英國數學家Clive Humby曾說過,數據是數字時代的新石油,盡管數據本身很有價值,但數據需要處理,就像石油需要在其真正價值被解鎖之前需要精煉一樣。石油是一種有限的資源,而數據卻是可重復使用的。對于企業而言,積累數據就是積累原始財富,在有分析能力的情況下可以進一步提煉數據背后的商業價值,UCloud新一代歸檔存儲正是為這些海量數據歸檔存儲提供高可靠、低成本解決方案的重要基石。
原文標題:海量數據何去何從?新一代歸檔存儲給你想要的答案
文章出處:【微信公眾號:高端存儲知識】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
存儲器
+關注
關注
38文章
7453瀏覽量
163609 -
數據
+關注
關注
8文章
6898瀏覽量
88840
原文標題:海量數據何去何從?新一代歸檔存儲給你想要的答案
文章出處:【微信號:High-end_Storage,微信公眾號:高端存儲知識】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論