唐代詩人白居易曾感嘆:“夜來南風起,小麥覆隴黃”,只言片語便描繪出農耕社會里麥熟時節的盛夏光景。古時,農人以深耕細作守護著口糧與生計,朝夕交替間,人類的悠遠文明便在這份原野的守護中徐徐展開。
時過境遷,在數字時代的今天,也有這么一群深扎熱土的“田間守護者”。
來自北京大學現代農業研究院(以下簡稱“北大農研院”)的小麥抗病遺傳育種團隊,便憑借對植物基因組的多年研究,從小麥及其近緣種屬中發掘、定位、克隆、轉育到多個優異的抗銹病基因,如Sr13和Yr15等,足以大幅提升主栽小麥品種的韌性,已幫助全球不同國家培育新物種超過100個。
事實上,小麥作為當今依舊最重要的糧食作物,在種植栽培上所面臨最大的病害便是小麥銹病。其危害強、范圍廣,輕則致麥粒不飽滿,重則致麥株枯死,若不根治,將長期威脅我國小麥的產能與質量。
這背后,是北大農研院對植物基因技術孜孜不倦的突破,是麥浪涌動間對土地的另一種數字守候。
糧安天下,種鑄基石
黃土地間的數字涌動
在遺傳學中,每種生物都蘊含了特定的一組基因,稱之為基因組,其蘊藏著這一生物的起源、進化、發育、生理等重要信息。通過控制蛋白質或控制酶的合成,這些基因將直接或間接地控制生物的性狀,譬如玉米植株的高矮、產量的高低、是否抗倒伏等等。
如今,全球糧食依舊呈現緊缺與分配不均的現狀,如何快速提升水稻、小麥、玉米等農作物的產量和質量?溫度、光照、水分、土壤的復雜影響下,如何提高作物對干旱、霜凍等嚴峻環境的抗逆性和適應性?全球每年多達40%的農作物產量因病蟲害而損失,如何發現更具抗病蟲害能力的作物品種,提高抵御力?
基因組測序與分析技術,便是回答這一系列問題的答案。
自1990年學界啟動“人類基因組計劃”以來,一系列作物基因組計劃也相繼啟動,如水稻基因組計劃、玉米基因組計劃、小麥基因組計劃,致力解開作物基因組的謎團。通過研究不同植物品種在基因圖譜上的表現規律與特殊功能的關聯,再進行編排、重組,為作物遺傳改良和新品種培育提供極佳的思路和方法。
然而,對作物基因組的研究分析過程又是極其復雜的,這包括了基因序列比對、基因表達分析、基因功能注釋、基因網絡構建等,涉及海量數據的處理和讀寫。
例如,一株小麥的基因組數據就有17GB之大、重復序列含量高達85%、過程數據將膨脹5倍之多,致使基因組破譯難度巨大,組裝一個大型作物基因組可能需要短時間內并行處理數百萬個序列片段數據,注釋則需要對數千個基因進行功能預測和分類。
換句話說,要想推開植物基因奧秘的大門,就要先通過一輪對存儲底座的試煉。
“小麥跟人一樣也會生病,我們要做的就是為小麥植入‘抗病’程序。”作為農業創新的先行者,北京大學現代農業研究院已經走在與小麥銹病作斗爭的路上很多年。基因組數據的高效處理和存納離不開一個得力的助手——超算平臺,為各項研究提供高性能計算、組學分析和科研數據存儲服務。
這其中,離不開華為OceanStor Pacific分布式存儲的鼎力相助。基于華為OceanStor Pacific分布式存儲這一強大的數據基礎設施底座,雙方攜手構筑基因數據分析平臺,滿足研究院各類植物基因生信分析任務,為智慧農業研究、農業生產大數據、農業資源大數據等方面提供強有力的支撐。
守護金飯碗、菜籃子和油桶子
海量數據的安心之選
在風吹日曬的山野耕種中,農人需要在犁地、播種、施肥、鋤草、灌溉等一系列環節對作物進行悉心呵護;而在漫長冗雜的植物基因科研中,數據存儲也需要對海量數據發揮同樣的作用。
植物基因組測序、注釋、編輯和模型計算是典型的大規模數據密集型場景,北大農研院的基因數據分析平臺便必須承載整個流程的全部數據,包括收集而來的原始基因組數據、經過清洗或打碎后的大量片段文件、基因比對與變異分析過程的中間信息、以及長期歸檔以供未來二次分析的溫冷數據。
一系列數據的流轉和調度,都需要強大的數據存儲作為擎托。北大農研院對此提出了清晰的訴求:
- 其一,作物基因組研究中涉及到大量的基因組測序、表達譜測定、SNP分析等數據產生,需要充足容量、巨大吞吐量的數據底座支撐;
- 其二,由于基因測序的整個過程會有持續化的碎片文件讀寫,絕不允許被中斷,這就要求支撐測序應用的存儲系統具備極致的穩定性和可靠性,確保數據不會丟失或損壞;
-
其三,在冷凍電鏡和基因數據分析工作中,對存儲系統的整體性能、小文件處理能力提出更高要求。
在華為的助力下,北大農研院面臨的一系列挑戰迎刃而解。
首先,存得下。在容納海量基因數據方面,北大農研院通過借助華為OceanStor Pacific分布式存儲構筑了超大容量資源池,為研究院眾多基因組、轉錄組、表觀組及代謝組、蛋白組和智慧農業研究提供充分支持。源于OceanStor Pacific的超高密硬件設計,在高效散熱與空間利用上的創新突破,單框可容納高達120塊盤,容量密度領先業界至少30%。
其次,用得穩。OceanStor Pacific以軟硬結合構筑多級可靠性保障。從硬件上,其采用全FRU(Field Replaceable Unit) 設計,可滿足7×24小時不停機維護。從軟件上,其采用跨節點大比例動態EC算法,可滿足4節點同時故障業務不中斷。經POC實測,整體集群具備穩定、高可靠能力,保障了不同作業負載下的持續運行。
第三,跑得快。OceanStor Pacific單存儲節點讀帶寬實測達到6GB/s,近乎翻倍的性能滿足北大農研院更高的高通量表型組圖像處理需求,最大化提升計算資源效率。同時,OceanStor Pacific采用新一代OceanFS并行文件系統,一套存儲滿足基因測序異構計算高帶寬和高IOPS要求,并結合DPC分布式并行客戶端,消除單流與單客戶端的性能瓶頸,支撐I/O級負載均衡的全場景加速。
存力加持
洞見每粒種子的巨大潛能
事實上,小麥抗病育種僅僅是北大農研院在探索農業與科技融合的冰山一角,我們還看到了其基因工程多姿多彩的產物。
例如,首個西瓜T2T無缺口參考基因組成功組裝、注釋并發表,成為業界里程碑意義的研究成果;大豆玉米帶狀復合種植潔田模式,在玉米不減產的前提下,一畝地能多收300多斤大豆;創建了一套高效精準的基因編輯工具,可使黃瓜遺傳轉化率提高25倍以上……
地能盡其利,則民食足;物能盡其用,則材力豐。在基因技術、數字技術點亮大地之前,存儲底座必須更堅實、更強大一點。
從土壤深處到民生大計,華為分布式存儲為基因工程產業搭建起一級級“存得下”、“用得穩”、“跑得快”的數字臺階。當我們踏著華為分布式存儲的臺階,一個又一個生物育種技術的創新成果便近在眼前,熠熠生輝。
今天,很多人類的科學問題、產業轉化問題,最終都變成了數據的問題。而人類今天所面對的數據密集型場景,也遠不止基因測序這一個。華為OceanStor Pacific分布式存儲將持續創新,點燃千行百業數字化的躍升引擎,釋放海量數據的非凡潛力。
點擊閱讀原文,了解更多華為數據存儲資訊!
原文標題:一粒種子如何撬動世界?
文章出處:【微信公眾號:華為】歡迎添加關注!文章轉載請注明出處。
-
華為
+關注
關注
215文章
34308瀏覽量
251186
原文標題:一粒種子如何撬動世界?
文章出處:【微信號:huaweicorp,微信公眾號:華為】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論