北京2023年4月21日 /美通社/ -- "一花一世界",這句話在蛋白質、DNA所在的微觀世界里體現得淋漓盡致,大到動植物、小到細菌,都蘊含著獨特的DNA,例如人體內就包含著23對染色體、30億個堿基對的數據量。探索這些堿基對蘊藏的"生命密碼",對于腫瘤早篩、罕見病診治、靶向藥物研制、遺傳演化和精準醫(yī)學研究等方面有重大助益。近期,北京英信未來科技有限公司(以下簡稱北京英信)聯合浪潮信息,為求臻醫(yī)學的高通量測序平臺提供了分布式存儲平臺,為全國數百家醫(yī)院的腫瘤患者提供了精準、高效的腫瘤基因檢測服務。
腫瘤基因檢測 為何要跑在大數據上
基因檢測作為醫(yī)療領域的新應用,不僅需要基于大數據平臺,利用極為精密的測序系統(tǒng)將基因序列解讀出來,還要通過大數據分析、比對,精確地了解每個基因片段發(fā)揮的作用。在這方面,求臻醫(yī)學擁有專業(yè)、豐富的經驗。
求臻醫(yī)學成立于2017年,以新一代基因測序和先進信息挖掘技術為基礎,依托《中國腫瘤基因圖譜計劃》和《腫瘤精準醫(yī)學大數據平臺》項目,深度融合基因檢測和人工智能,致力于腫瘤液態(tài)活檢領域診斷產品的開發(fā)及智能迭代升級,業(yè)務涵蓋腫瘤早篩、伴隨診斷、動態(tài)監(jiān)測、預后評估等多場景應用領域,同時不斷探索發(fā)現中國人腫瘤基線及特異的生物標志物,助力抗腫瘤藥物的研發(fā)。
然而,隨著業(yè)務高速發(fā)展,求臻醫(yī)學服務的醫(yī)院、患者越來越多,數據量也相應的急速增長,原有的數據存儲系統(tǒng)常常因巨量訪問而超過性能閾值,存儲系統(tǒng)也存在容量空間嚴重不足的情況。在這種情況下,求臻醫(yī)學計劃對原有的數據存儲平臺進行升級,新建的數據存儲平臺將主要支持腫瘤精準診療的生物醫(yī)學信息化平臺。
此平臺涵蓋了知識數據庫、臨床信息采集系統(tǒng)、數據注釋接口(API)等模塊系統(tǒng),可以基于大數據分析為基因檢測客戶生成個體化的檢測報告。整個信息平臺數據存儲的基礎設施有著較大的挑戰(zhàn)和要求:
首先,是存儲數據量的需求。一個完整的基因測序樣本會產生千萬量級的文件。據了解,目前一臺先進的測序儀、分析儀等設備每天捕捉的測序數據平均水平已達到4TB,加之基因信息分析過程一般會產生原始數據量5倍左右的中間文件及結果,PB級別存儲空間已經成為存儲設備的基本要求。
其次,是數據可靠性的需求。腫瘤基因檢測數據作為腫瘤精準診療核心數據,檢測數據通常需要長期保存多年,通過合理的生命周期管理系統(tǒng)進行歸檔保留,數據的自動化遷移歸檔、數據的安全性、存儲的易擴展性是數據歸檔存儲考慮的重要因素。
最后,基因測序訪問實時性要求高?;驕y序過程是一個超高并發(fā)的文件轉換過程,整個生產過程有非常密集的文件讀取和寫入。整個生物樣本的導入過程對文件存儲的性能有著極高的要求,滿足科研任務對不同文件高帶寬的存儲需求,既要文件系統(tǒng)必須提供超大文件數量的支持,同時必須在有限的時間內完成海量小文件的導入。
分布式存儲:為基因測序構建數據基座
針對求臻醫(yī)學基因測序應用數據量增長快、性能和可靠性要求高的業(yè)務特點,浪潮信息攜手合作伙伴北京英信為求臻醫(yī)學提供了專業(yè)化的存儲解決方案。方案采用AS13000高密分布式存儲,節(jié)點間管理網絡采用千兆交換機,通過100GB高速IB網絡連接前端并行計算業(yè)務集群,為前端業(yè)務構建了一套大容量、高可靠、高性能、低延遲的數據存儲平臺。
在容量方面,AS13000分布式存儲集群由5個節(jié)點組成,每節(jié)點采用35塊8T大容量硬盤配置,可提供PB級存儲容量,滿足海量數據存儲需求。值得一提的是,該解決方案可實現分鐘級擴充,最大可擴展至5120節(jié)點,在擴容同時可保障業(yè)務性能無明顯波動,性能與容量隨著節(jié)點的擴展而線性增長,避免對現有計算任務讀寫訪問性能造成影響,使得存儲系統(tǒng)的容量、性能在未來可隨時按需擴展。
在可靠性方面,浪潮信息分布式存儲平臺AS13000提供副本和糾刪碼兩種數據保護方式,為用戶提供多層級的數據保護及容災功能,充分保證檢測任務以及前端計算任務7x24小時的連續(xù)讀寫訪問。結合信息平臺檢測數據需要長期保存的業(yè)務特點,浪潮信息采用三副本的數據冗余保護方式,同時,還可搭配InView智能統(tǒng)一存儲管理平臺,對基因測序數據中心的設備進行管理,提供容量、性能、故障的智能化預測性分析,幫助運維人員預防硬件潛在故障,降低了存儲的復雜性,同時也有效地降低了運維成本。
在性能方面,浪潮信息分布式存儲解決方案針對基因測序數據特點采用冷熱數據分級存儲搭配全局緩存技術,實現熱數據快速響應,延遲降低40%。對于對象類型數據,采用對象聚合技術,來提升單次落盤的對象大小,降低落盤操作次數,單節(jié)點恒定聚合帶寬達2GB/s以上,確保基因測序任務的讀寫性能。
目前,基因測序應用范圍在大幅擴展,從科研服務的基因圖譜、遺傳多樣性,到醫(yī)療服務的疾病早篩和治療都能涵蓋,這對未來提升醫(yī)療智慧水平意義重大。浪潮信息始終堅持通過數據的力量,為基因測序基礎研究儲能,驅動精準醫(yī)療應用加速發(fā)展。
審核編輯黃宇
-
存儲
+關注
關注
13文章
4263瀏覽量
85672 -
分布式
+關注
關注
1文章
879瀏覽量
74467
發(fā)布評論請先 登錄
相關推薦
評論