高通量測序
測序方案建立在雙脫氧測序法(Sanger等,1977)的基礎(chǔ)上。為了從每一克隆插入片段兩端成對地進(jìn)行測序,每一個質(zhì)粒模板DNA板應(yīng)配備兩個384孔循環(huán)測序反應(yīng)板。測序反應(yīng)采用Big Dye Terminator chemistry version 3.1(AppliedBiosystems)和標(biāo)準(zhǔn)M13或常用正向引物和反向引物。測序反應(yīng)通過BiomekFX(Beckman)移液操作工作站建立。機(jī)械臂負(fù)責(zé)等分模板試樣,起與反應(yīng)液混合的作用,反應(yīng)液含有雙脫氧核苷酸、熒光標(biāo)記的核苷酸、TaqDNA聚合酶、序列引物和緩沖液。
模板和反應(yīng)板有條形碼,且在BiomekFX移液操作工作站上有條形碼讀取器跟蹤,確保模板和反應(yīng)液轉(zhuǎn)移中沒有錯誤。30~40線性擴(kuò)增步驟連續(xù)循環(huán)在MJResearchTetrads或9700熱循環(huán)儀(Ap—pliedBiosystems)中進(jìn)行。反應(yīng)產(chǎn)物可以用異丙醇在室溫下高效率沉淀,4C下保存或懸浮在水中密閉保存。如果測序儀器正常,在掃描反應(yīng)板的條形碼后,會自動為每一反應(yīng)板生成一個樣品膜。然后將反應(yīng)板移至一臺ABIPrism3700DNA分析儀或AppliedBiosystems 3730xiDNA分析儀上,進(jìn)行電泳。現(xiàn)在的多聚體和軟件允許每天在ABIPrism 3700 DNA分析儀上進(jìn)行8次電泳,在AppliedBiosystems 3730xlDNA分析儀上進(jìn)行12次,調(diào)試時間少于1h。
平行運(yùn)行大量工作的高通量測序設(shè)備通常需要通過實(shí)驗(yàn)室信息管理和樣品跟蹤系統(tǒng)(1aboratory information management and sample tracking system,LIMS)(Kerlavage等,1993)進(jìn)行自動化管理。在TIGR,這種系統(tǒng)包括從文庫構(gòu)建早期經(jīng)測序到結(jié)束的樣品跟蹤的整套軟件。經(jīng)過這種處理,數(shù)據(jù)保存在Sybase關(guān)系數(shù)據(jù)庫表格中。數(shù)據(jù)庫儲存和聯(lián)系在整個基因組測序流程中所收集的全部數(shù)據(jù),允許使用者以各種方式回溯數(shù)據(jù)流,可從已經(jīng)注釋的基因回溯到基因的原始測序跟蹤文件。這個系統(tǒng)包括樣品管理、數(shù)據(jù)輸入、文庫管理和序列加工的客戶端/服務(wù)器應(yīng)用軟件。經(jīng)過多年改進(jìn),并且結(jié)合新的實(shí)驗(yàn)室方法、新型的儀器和軟件,這一系統(tǒng)已成熟穩(wěn)定。這些整合應(yīng)用包括自動載體清除、確定和屏蔽重復(fù)元件、發(fā)現(xiàn)污染的克隆和跟蹤克隆及模板信息。
在測序流程中,生成的模板和序列的質(zhì)量每天可通過用戶友好界面系統(tǒng)地監(jiān)控。這就保證了迅速發(fā)現(xiàn)并改正工作中的潛在問題。通常,質(zhì)量控制和質(zhì)量測評(qualitycontrol/qualityassessment,QC/QA)組共同應(yīng)用質(zhì)量檢測標(biāo)準(zhǔn)。他們負(fù)責(zé)檢驗(yàn)和提供試劑給生產(chǎn)組,并在流程中檢測模板質(zhì)量、調(diào)查失敗和偏離正常表現(xiàn)范圍的情況、監(jiān)控數(shù)據(jù)質(zhì)量、審計、確定可改進(jìn)的方面、制作控制文件(標(biāo)準(zhǔn)操作步驟),以保證這些文件具有格式上的一致性和技術(shù)上的準(zhǔn)確性。
高通量測序面臨5大挑戰(zhàn)
基因測序作為醫(yī)療健康行業(yè)的火爆技術(shù),近年來越來越得到臨床的認(rèn)可,并逐步被應(yīng)用到各大領(lǐng)域中。尤其是精準(zhǔn)醫(yī)療概念提出以后,基因測序更是備受青睞,它為精準(zhǔn)醫(yī)療解答了很多未知的問題。
如今,基因測序已經(jīng)形成了一定的產(chǎn)業(yè)規(guī)模,大量的企業(yè)以不同形式躋身進(jìn)來。但是,在表面飛速發(fā)展的背后,技術(shù)上仍有大量的挑戰(zhàn)。外媒《GEN》Shawn C. Baker博士撰文講解該領(lǐng)域面臨的困難與挑戰(zhàn),雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))AIHealth欄目編譯如下:
過去十年里,高通量測序技術(shù)經(jīng)歷了跨越式的發(fā)展,測序能力大幅上升,費(fèi)用下降,兩者的變化都是數(shù)量級的。到目前為止,全球范圍內(nèi),共配備測序設(shè)備超過一萬臺。
過去十幾年來,主要的平臺公司都致力于提升系統(tǒng)的易用性。Illumina的最新桌面系統(tǒng),比如 NextSeq、MiSeq、和MiniSeq 系統(tǒng),均通過試劑盒進(jìn)行操作,以減少了手工操作的次數(shù)和開機(jī)時間。
一直以來, Illumina的系統(tǒng)都比賽默飛的 Ion Torrent 系統(tǒng)更加易用,但后者最新的系統(tǒng)Ion S5特別設(shè)計簡化了整個工作流程,涉及設(shè)計準(zhǔn)備庫到數(shù)據(jù)生成的整個流程。
行業(yè)外讀者在聽聞了測序行業(yè)的許多進(jìn)展后,如強(qiáng)大的測序能力、更低的成本以及更好的易用性,可能會誤認(rèn)為,基因測序所有的困難已經(jīng)都解決了,測序過程的所有障礙都移除了。
但是真正的困難還剛開始,大量的挑戰(zhàn)在前方。
樣品質(zhì)量
問題最嚴(yán)重的一個領(lǐng)域,也是易被忽略的是:樣品質(zhì)量,雖然測試平臺經(jīng)常會校準(zhǔn),使用的樣本也是經(jīng)過校準(zhǔn)的,但是真實(shí)世界中的樣本經(jīng)常會面臨很多意想不到的挑戰(zhàn)。
在人類基因測序中,一個最普遍使用的樣本類型是FFPE (formalin-fixed paraffin-embedded)。FFPE的廣泛應(yīng)用有多種原因,其中最重要的是豐富性。據(jù)估計,全球范圍內(nèi),有超過100億FFPE樣本存檔。FFPE塊的臨床樣本存儲已經(jīng)變成工業(yè)級別的標(biāo)準(zhǔn)實(shí)踐,其樣本數(shù)量將繼續(xù)保持增長。
除全球范圍的廣泛應(yīng)用外,F(xiàn)FPE樣本通常包含著大量可用的表型信息。例如,F(xiàn)FPE樣本可與治療方法和臨床數(shù)據(jù)綜合應(yīng)用。
但FFPE 樣本出現(xiàn)的問題是:固定過程和存儲條件均會造成大量的DNA損傷。
BioCule公司CEO、聯(lián)合創(chuàng)始人 Hans G. Thormar博士認(rèn)為,
評估了BioCule的QC平臺超過1000份樣本后,我們看到了DNA樣品中大量的變異和各種類型的損傷,例如鏈間、鏈內(nèi)交聯(lián),單鏈DNA的聚合以及單鏈DNA破壞。
DNA損傷的變異數(shù)量和類型,如果忽略,可能會對最終結(jié)果產(chǎn)生負(fù)面影響。
Thormar認(rèn)為,
這對下游應(yīng)用比如測序的影響是巨大的:從簡單測序文庫構(gòu)建的失敗到虛假文庫的產(chǎn)生,最終導(dǎo)致結(jié)果的錯誤。因此,在測序項(xiàng)目開始時正確評估每個樣本的質(zhì)量變得至關(guān)重要。
測序文庫
盡管,各大測序平臺公司花大力氣在降低生成原始序列的成本上,但是在構(gòu)建測序庫方面卻不然。人類基因測序的測序文庫的構(gòu)建,每個樣本大約花費(fèi)50美元,在總花銷中是相對較小的一部分。但是在其他應(yīng)用中,例如細(xì)菌基因組測序或低深度RNA測序,它占據(jù)總成本很大一部分。
幾個小組研究了多元化自制解決方案,期望可以有效降低成本,但在商業(yè)領(lǐng)域并沒有太多發(fā)展。在開發(fā)單細(xì)胞測序解決方案中有一個亮點(diǎn),例如10X Genomics公司的Chromium?系統(tǒng),利用基于珠的系統(tǒng)可以并行處理數(shù)百到數(shù)萬個樣品。
10X Genomics 公司的CEO兼聯(lián)合創(chuàng)始人Serge Saxonov博士堅(jiān)持道,
我們認(rèn)為單細(xì)胞RNA測序是進(jìn)行基因表達(dá)分析的正確方式,在接下來的幾年,全球許多地區(qū),RNA試驗(yàn)將轉(zhuǎn)向單細(xì)胞分辨率,我們的平臺有可能在這方面引領(lǐng)浪潮。
對于大型項(xiàng)目,比如在降低樣品成本方面,單細(xì)胞RNA測序中要求的高度多元解決方案將是關(guān)鍵的因素。
長讀數(shù)與短讀數(shù)
Illumina對于基因測序市場的主導(dǎo),意味著到目前為止產(chǎn)生的絕大多數(shù)數(shù)據(jù)都基于短讀數(shù)(short reads,高通量測序平臺產(chǎn)生的序列就稱為reads,這是測序讀到的堿基序列片段,測序的最小單位)。大量短讀數(shù)的產(chǎn)生對大多數(shù)的應(yīng)用都很適用。例如檢測基因組DNA的單核苷酸多態(tài)性和計數(shù)RNA的轉(zhuǎn)錄物。然而,在許多其他的應(yīng)用中,僅有短讀數(shù)是不夠的,例如閱讀基因組的高度重復(fù)區(qū)域和確定長鏈結(jié)構(gòu)。
長讀數(shù)平臺,例如Pacific Biosciences公司的RSII和Sequel,Oxford Nanopore的MinION,通常能生成15-20kb范圍長度的讀數(shù),最高曾報道過超過100kb長度的讀數(shù)。這樣的平臺贏得科學(xué)界的贊賞,例如加利福尼亞大學(xué)戴維斯分校細(xì)胞生物學(xué)教授Charles Gasser博士。
我對于用長讀數(shù)方法進(jìn)行基因組裝配的成功印象深刻,特別是與短讀數(shù)高保真數(shù)據(jù)相結(jié)合時的混合裝配中。技術(shù)的結(jié)合使得小群體、小預(yù)算的單個研究者從一個新的生物基因組中產(chǎn)生一個可用的組裝。
為了充分利用這些長讀數(shù)平臺,有必要通過新方法進(jìn)行制備DNA樣品,標(biāo)準(zhǔn)分子生物學(xué)方法尚未優(yōu)化用來分離超長鏈DNA片段,所以,在制備長讀數(shù)庫時必須特別小心。
例如,供應(yīng)商創(chuàng)建了一種高分子量試劑盒用于分離大于100kb的的DNA片段,優(yōu)化靶向DNA方案來選擇性富集DNA的大片段,為了保證長讀數(shù)產(chǎn)量的最大化,這些方法和技術(shù)必須掌握。
短讀數(shù)的一種特殊形式是鏈接讀數(shù),例如10X Genomics,可作為真正長讀數(shù)的一種替代方法。鏈接讀數(shù)是這樣產(chǎn)生的:每個長DNA片段,通常大于100kb,其中產(chǎn)生的每個短讀數(shù),均加入一個獨(dú)一無二的條形碼,在分析階段,這種獨(dú)特的條形碼就可以將分離的短讀數(shù)鏈接在一起,從而提供長鏈基因信息,使得構(gòu)建大單倍型塊和對復(fù)雜結(jié)構(gòu)信息的闡釋成為可能。
短讀數(shù)測序,因其高精確度和高通量,通常具有強(qiáng)大的功能,但只能獲取小部分的基因信息。這是因?yàn)榛蚪M是基本重復(fù)的,基因組中的大量信息編碼在長鏈中。
數(shù)據(jù)分析
研究人員面臨的領(lǐng)一大挑戰(zhàn)是生成的數(shù)據(jù)量非常大。單個30X人全基因組樣品的BAM文件(半壓縮比對文件)約為90GB;一個相對中等的項(xiàng)目,包含100個樣本,其BAM文件可達(dá)到9TB。
一個Illumina HiSeq X儀器,每年能產(chǎn)生超過130TB的數(shù)據(jù),很快數(shù)據(jù)的存儲就變成一個大問題。例如,Broad研究所以每12分鐘分析一個30X人全基因組速率產(chǎn)生基因測序數(shù)據(jù)——每年可產(chǎn)生將近4000TB的BAM文件。
BAM文件可以轉(zhuǎn)化為VCF文件(變體調(diào)用格式),后者僅包含不同于標(biāo)準(zhǔn)序列的信息。雖然VCF文件小并且更加好用,但是保存原始序列文件仍是必要的,方便研究者將來查看這些數(shù)據(jù)。
隨著測序成本下降,一些人就得出這樣的結(jié)論:對樣本重測序會很容易,并且可能更便宜,而分析大量數(shù)據(jù)時,研究人員的選擇空間非常大。但事實(shí)上,在OMICtools中有超過3000個序列分析工具可供選擇,研究人員想要找到最好的那一個,也不容易。
臨床解釋和報銷
最后,對于臨床樣本,還有一個挑戰(zhàn):對于測序序列的變異提供一致可靠的解釋。
一個典型的外顯子包含1萬~2萬個突變,全基因樣本則會產(chǎn)生超過300萬種變異。在通常的解釋中,根據(jù)變異造成的疾病相似性分類。
為了協(xié)助指導(dǎo)臨床醫(yī)生,美國醫(yī)學(xué)遺傳學(xué)和基因組學(xué),分子病理學(xué)協(xié)會和美國病理學(xué)家學(xué)院創(chuàng)建了一套對突變進(jìn)行分類的系統(tǒng)。分類目錄包括致病性,可能致病性,不確定的顯著性(目前占外源和全基因組樣本的絕大多數(shù)),可能良性和良性。
然而,這種方案有其局限性。即時使用一種公認(rèn)的分類方案分類同一個數(shù)據(jù)庫,不同的項(xiàng)目組可能會提出不同的解釋。對新系統(tǒng)的一個試驗(yàn)研究中,參與的不同臨床實(shí)驗(yàn)室僅在34%的情況下,對于分類的解釋一致。
如果存在分歧或需要額外的分析來解釋實(shí)驗(yàn)結(jié)果,那么就存在報銷的問題。基于NGS的測試的報銷可能是一個大障礙,但是對于解釋的報銷幾乎是不可能的。
Rady兒童基因組醫(yī)學(xué)研究所臨床研究員Jennifer Friedman博士說,
實(shí)驗(yàn)室不可能對試驗(yàn)的解釋付費(fèi),如果這種服務(wù)可以提供,這是非常有價值的,但是沒有人做到這個。
沒有辦法為此付費(fèi),保險公司不報銷。盡管對于精準(zhǔn)醫(yī)學(xué)的關(guān)注度上升,但是無論是臨床醫(yī)生或?qū)嶒?yàn)室做出的解釋,都沒有被醫(yī)療保健支付者承認(rèn)或是重視。
到目前為止,病人樣本的分析基本上是作為一個研究項(xiàng)目來對待的,是在研究型醫(yī)院中的一個選擇,并且僅用于有限數(shù)量的患者。
發(fā)布評論請先 登錄
相關(guān)推薦
評論