華為云數據庫GaussDB揭秘:數據分級存儲
“只存儲這些數據一年就要花費200多萬?”
面對老板的質疑,小王又重新講解了一遍評估方案。為了支撐生產分析和系統運維,一個設備就需要幾十個檢測點數據,所有設備24小時不斷采集數據,一天的數據量就會達到TB級,這些數據至少存儲2年,再加上高可用的3副本,總的數據量會達到PB級。
小王又展示了當前云廠商存儲價格和性能對比的調研結果:
磁盤類型
SATA——NVME
成本100G/月
9.9——100
IOPS
2200——50000
吞吐量
50M/s——350M/s
訪問時延
5ms~10ms——1ms
不同存儲其性能差異很大。例如NVME盤的吞吐量是SATA盤的7倍,IOPS超過了20倍,當然對應的成本也高出10倍左右。根據測試評估,低成本的存儲性能無法滿足大量數據的寫入和實時業務的監控,只得使用性能高的SSD盤,因此導致存儲的成本提高。
成本提高,老板自然不滿意。那如何才能既滿足性能需求,又能控制成本呢?小王想,“實際上,不是所有的數據處理都需要很高的性能,如果把價值高的數據放在高性能磁盤上滿足業務需求,價值低的數據放在低成本磁盤上降低成本,這樣不就既能滿足需求,又能降低成本了么?”
不過,想法很美好,現實很殘酷,要實現這個方案,小王面臨著更多的難題:
(1)怎么在一套系統中既能使用高性能存儲,又能使用低成本存儲?
(2)怎么區分高價值數據?
(3)高價值數據變成低價值數據后怎么自動轉儲?
(4)當前業務改造量要盡量少。
1.GaussDB(for Influx)解決方案
企業的數字化轉型,數據是基礎。為了能實時掌握設備、系統狀態,需要采集大量的數據并進行實時處理。這些數據都屬于時序數據,帶有明顯的特點,如時間戳、更新少、數據源唯一等。除了數據本身的特點,在業務應用上還具有如下特點:
- 隨著時間的推移,其被查詢和分析的概率越來越低。
- 隨著時間的推移,對數據分析的實時性要求越來越低。
- 隨著時間的推移,數據的精度要求越來越低。
- 數據只保留一段時間,到期后會刪除。
如何結合時序數據的特點,實現小王既滿足業務性能,又控制成本的美好愿望呢?華為云GaussDB(for Influx)時序數據庫的數據分級存儲功能完美解決了困擾小王的問題。
- 華為云GaussDB(for Influx)依托云原生能力,實現了計算存儲分離的分布式架構,其中存儲基于華為分布式存儲DFV和對象存儲OBS,解決了在一套系統中既能使用高性能存儲,又能使用低成本存儲的問題,其具體架構如下圖:
分布式DFV存儲屬于高性能存儲,熱數據放在DFV中確保業務性能要求;OBS存儲屬于低成本存儲,冷數據存儲在OBS中,降低客戶成本。
- 提供了冷熱數據自動分離的方案,用戶在創建保留策略時,可以指定冷熱數據的劃分時間,系統根據用戶的指定,自動將數據分為熱數據和冷數據,解決了數據如何劃分的問題。
- 隨著時間的推移,熱數據轉冷,系統會自動將數據轉儲到冷存儲上。
- 上述過程中只有在創建RP時需要指定冷熱數據策略。對于業務側是不感知的,避免業務的適配和改造。
2.GaussDB(for Influx)冷熱存儲的使用
GaussDB(for Influx)存儲分級功能使用十分方便,在購買冷存儲后,設置RP策略時指定冷存儲的時間即可,系統會根據RP策略,自動將冷數據轉儲到底成本存儲上。業務在訪問冷數據時,系統會自動去冷存儲上讀取,整個過程業務是不感知的,對業務無影響。
2.1購買冷存儲
GaussDB(for Influx)支持一鍵購買冷存儲空間,可以在購買實例時選擇是否夠買冷存儲,選擇“是”,可以根據業務需求選擇冷存儲的大小,具體如下圖:
也可以在購買實例后,獨立購買冷存儲。進入實例詳情頁面,點擊創建冷存儲空間,如下圖:
跳轉到如下頁面,按照業務需求進行存儲空間大小選擇:
冷存儲空也支持在線擴容,擴容過程中不影響業務。
2.2設置冷數據規則
在購買了冷存儲空間后,就可以按照業務需求設置冷數據的規則,系統會根據規則,自動劃分冷熱數據,并將冷數據存儲在冷存儲空間上。可以通過創建RP來指定冷熱數據規則,具體示例如下:
//在db名為mydb上創建名為myrp的RP,顯示指定WARM DURATION為6d,表示6天前的數據是冷數據。
create retention policy myrp on mydb duration 30d replication 1 warm duration 6d shard duration 3d
//在db名為mydb上創建名為myrp的RP,沒有指定WARM DURATION,表示沒有冷數據。
create retention policy myrp on mydb duration 30d replication 1 shard duration 3d
//創建名為mydb的db,并帶有名為myrp的RP,顯示指定WARM DURATION為3d,表示3天前的數據是冷數據。
create database mydb with duration 6d warm duration 3d name myrp
//修改WARM DURATION為7d,表示7天前的數據是冷數據。
alter retention policy myrp on mydb warm duration 7d
規則設置完成后,系統會根據指定的規則,自動判斷哪些數據屬于冷數據,并自動將數據轉儲到冷存儲上。
2.3使用效果驗證
冷數據規則設置好,插入數據一段時間后,系統會自動判斷數據是否轉為冷數據,如果已經成為冷數據,系統會自動將數據轉儲到冷存儲上。可以通過show shards命令來查看數據的狀態,如下圖所示:
> show shards
name: hsdb
id database retention_policy shard_group start_time end_time expiry_time owners tier
-- -------- ---------------- ----------- ---------- -------- ----------- ------ ----
5 hsdb myrp 2 2019-08-12T00:00:00Z 2019-08-19T00:00:00Z 2019-08-19T00:00:00Z 4 cold
6 hsdb myrp 2 2019-08-12T00:00:00Z 2019-08-19T00:00:00Z 2019-08-19T00:00:00Z 5 moving
7 hsdb myrp 2 2019-08-12T00:00:00Z 2019-08-19T00:00:00Z 2019-08-19T00:00:00Z 6 warm
8 hsdb myrp 2 2019-08-12T00:00:00Z 2019-08-19T00:00:00Z 2019-08-19T00:00:00Z 7 cold
cold:表示數據為冷數據,已存儲在冷存儲中;
moving:表示數據為冷數據,該數據正在轉儲到冷存儲中;
warm:表示數據為熱數據。
3.總結
在應用了GaussDB(for Influx)的冷熱分級存儲方案后,存儲100T的數據量一年,按照1個月內的數據是熱數據,其余是冷數據,其總體的存儲成本從250萬降至37.5萬,可節省85%的存儲成本。
GaussDB(for Influx)除了冷熱分級存儲功能外,在集群化、讀寫性能、壓縮率、高可用方面也做了深度優化,能更好地滿足時序應用的各種場景。
審核編輯 黃昊宇
-
存儲
+關注
關注
13文章
4265瀏覽量
85677 -
華為云
+關注
關注
3文章
2435瀏覽量
17316
發布評論請先 登錄
相關推薦
評論