合成DNA作為一種高密度數(shù)據(jù)存儲介質,多年來一直吸引著數(shù)字未來學家。整個互聯(lián)網(wǎng)可以被編碼成鞋盒大小的DNA鏈,而DNA分子非常穩(wěn)定,可以持續(xù)數(shù)萬年甚至幾十萬年。例如,2013年,科學家們對一具70萬年前的馬化石的整個基因組進行了測序。
一旦儲存起來,DNA幾乎不需要任何維護。畢竟,化石在地下生活了數(shù)百萬年后仍然保存著DNA序列。DNA存儲也不需要任何能量--在有人決定訪問它之前,只需要一個涼爽、黑暗的地方就可以了。
然而,將一種數(shù)據(jù)格式轉換為另一種格式并不簡單。德克薩斯大學奧斯汀分校(University Of Texas At Austin)的研究團隊提出了一種在DNA鏈中存儲信息的方法,同時也糾正了錯誤。他們開創(chuàng)了一套DNA數(shù)據(jù)編碼和解碼算法,可能會開創(chuàng)高密度、長期數(shù)據(jù)存儲的新領域。
其工作讓人想起了開創(chuàng)量子密碼技術領域的里程碑式的BB84 protocol,有朝一日,它將成為基因組數(shù)據(jù)存儲應用領域的基礎,而基因組數(shù)據(jù)存儲應用是以每克千兆字節(jié)為單位重新想象而來的。
Stephen Jones是Press所在小組的博士后,也是《美國科學院院刊》(Proceedings of the National Academy of Sciences)論文的合著者,他說,最好從了解數(shù)據(jù)存儲錯誤通常在哪里蔓延開始。
像所有的數(shù)據(jù)存儲方法一樣,DNA也有一些缺點。最重要的前期障礙是成本。除此之外,DNA也容易出錯。回想一下組成DNA階梯的四個核苷酸堿基。平均而言,DNA在每100到1000個核苷酸中會引入一個錯誤。它們可以采取三種形式:替換、插入和刪除。
在替換突變中,一串核苷酸中的一個字母可能會被換成另一個,DNA鏈的長度保持不變。然而,在插入或缺失時,DNA會獲得一個額外的核苷酸堿基,或者移除一個堿基。但與計算機代碼中的錯誤不同的是,在移除的堿基曾經居住的地方沒有留下任何空間,當你去解碼存儲在DNA中的數(shù)據(jù)時,這可能很快就會出現(xiàn)問題。
事實上,DNA數(shù)據(jù)存儲的相對性質是Press,Jones和合著者的HEDGESprotocol的關鍵。他們的研究方案中沒有一個單獨的核苷酸包含有用的數(shù)據(jù)。相反,正是核苷酸序列的積累提供了一個強大的存儲系統(tǒng),他們預測這個系統(tǒng)可以實現(xiàn)DNA的高密度潛力,同時還能經久不衰。
研究小組使用了L. Frank Baum的The Wizard of Oz,并將其翻譯成世界語,作為他們要存儲的樣本數(shù)據(jù)集。Jones說,現(xiàn)在合成的DNA通常是由大約100對堿基組成的。這就是他們的“硬盤”的基礎。
因此,他們的研究方案需要能夠被分割成數(shù)千或數(shù)百萬的幾百個核苷酸序列,每一個序列都包含重組源文本所需的信息,即使存在未知數(shù)量的替換、插入和刪除錯誤。
然后,將The Wizard of Oz編碼成DNA,涉及到通過“外部”編碼層和“內部”編碼層傳遞數(shù)據(jù)。(將這些步驟看作是復雜密碼標準中的兩個獨立算法。)
外層將源數(shù)據(jù)對角化,這樣任何給定的DNA鏈都將包含信息許多部分的碎片。內層,即模糊限制,然后根據(jù)一種算法將每一位轉換成A、C、T或G,該算法既依賴于該位的零或一個值,又取決于它在數(shù)據(jù)流中的位置的附加信息,以及它前面的數(shù)據(jù)位。
然后,一旦Oz被翻譯成核苷酸的語言,它就可以被寫在合成的DNA鏈上了。
“我把DNA打得粉碎,”Jones表示,“它顯示了DNA是多么強大。”從DNA存儲器中解碼數(shù)據(jù)需要首先對the Wizard of Oz的基因組進行測序,然后將這些遺傳數(shù)據(jù)轉換回位。一旦他們弄清楚哪些位是“address”位,他們就可以將剩余的信息位串回到一個單獨的、連接的數(shù)據(jù)文件中。
博士后研究員、合著者John Hawkins表示,“展望未來,基于DNA的存儲的潛力幾乎是無限的。他提出了一種未來的愿景,在那里,用數(shù)據(jù)編碼的DNA可以被合并到其他材料中。”
即使團隊已經取得了突破,但基于DNA的數(shù)字存儲還需要一段時間。研究人員表示,“數(shù)據(jù)能否保存到未來只是問題的一半。你還需要在另一端能夠閱讀。只要人類是由DNA構成的,我們就會一直希望周圍的機器能夠讀取DNA。但我不認為它會在十年或更長時間內可成為大眾市場產品。”
-
算法
+關注
關注
23文章
4601瀏覽量
92677 -
數(shù)據(jù)存儲
+關注
關注
5文章
964瀏覽量
50861 -
DNA
+關注
關注
0文章
243瀏覽量
30983
原文標題:科學家為何將“The Wizard of Oz”儲存在DNA中
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論