精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用深度學(xué)習(xí)模型最大限度地提高外顯子組測(cè)序分析的準(zhǔn)確性

jf_pJlTbmA9 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2023-07-05 16:30 ? 次閱讀

人類(lèi)外顯子組是理解和治療遺傳疾病的關(guān)鍵。盡管外顯子組只占人類(lèi)基因組的 1% 多一點(diǎn),但它也包含大約85% 的已知變異具有顯著的疾病相關(guān)突變。這就是為什么涉及這些區(qū)域的提取和測(cè)序的全外顯子組測(cè)序在臨床研究和實(shí)踐中很受歡迎,其中優(yōu)化準(zhǔn)確性、運(yùn)行時(shí)間和成本很重要。

這篇文章展示了 NVIDIA Parabricks,一套用于高通量數(shù)據(jù)的加速基因組分析應(yīng)用程序可以用于外顯子組分析。 NVIDIA Parabricks 顯著降低了運(yùn)行時(shí)間和分析成本,同時(shí)最大限度地提高了變體調(diào)用的準(zhǔn)確性。整個(gè)外顯子組測(cè)序數(shù)據(jù)分析可以在 range of GPUs可在本地和每個(gè)主要的云提供商中使用。

利用深度學(xué)習(xí)模型最大限度地提高外顯子組測(cè)序分析的準(zhǔn)確性

UK Biobank,是世界上最全面的公開(kāi)可用生物醫(yī)學(xué)數(shù)據(jù)資源,為 47 萬(wàn)名參與者提供外顯子組數(shù)據(jù),所有參與者都按 Regeneron Genetics Center (RGC)這些數(shù)據(jù)可通過(guò)英國(guó)生物銀行研究分析門(mén)戶(hù)網(wǎng)站提供給世界各地的研究人員,該門(mén)戶(hù)網(wǎng)站通過(guò)DNAnexus。

人類(lèi)基因組包含超過(guò) 180000 個(gè)蛋白質(zhì)編碼區(qū)或外顯子,它們共同組成一個(gè)外顯子組。每個(gè)外顯子組包含大約 3000 萬(wàn)個(gè)核苷酸。因此,變異呼叫在大規(guī)模人群研究中至關(guān)重要,在這些研究中,即使是低的假陽(yáng)性和陰性率也會(huì)產(chǎn)生相當(dāng)大的影響。要了解更多信息,請(qǐng)參閱Sequencing Your Genome: What Does It Mean?

出于這個(gè)原因, RGC 使用谷歌 DeepVariant 的定制訓(xùn)練版本分析了英國(guó)生物庫(kù)外顯子,這是一種高精度的變體分類(lèi)深度學(xué)習(xí)方法。該方法通過(guò) NVIDIA Parabricks 進(jìn)行了加速和部署,提供了與 CPU 代碼相同的準(zhǔn)確結(jié)果,具有更快的運(yùn)行時(shí)間和更低的 RGC 每個(gè)外顯子組成本。

根據(jù) RGC 基因組信息學(xué)和數(shù)據(jù)工程執(zhí)行主任 Will Salerno 的說(shuō)法,“使用 Parabricks 進(jìn)行優(yōu)化的關(guān)鍵組成部分之一不僅是使其更快、更便宜,而且還可以獲得完全相同的變體。這種再現(xiàn)性對(duì)我們來(lái)說(shuō)至關(guān)重要,這是透明的。我們不想要秘密醬汁,我們想要對(duì)每個(gè)人都有效的特殊醬汁,就像對(duì)我們一樣。”。我們所做的每一件事,都希望我們的任何合作伙伴都能從這些方法中受益。”

基因組學(xué)研究人員可以使用各種各樣的變體調(diào)用工具,從統(tǒng)計(jì)技術(shù)(例如貝葉斯或高斯混合模型)到將外顯子組變體分類(lèi)為信號(hào)或噪聲的深度學(xué)習(xí)方法(卷積或遞歸神經(jīng)網(wǎng)絡(luò)

盡管統(tǒng)計(jì)技術(shù)可以提供一種更具普遍性的方法,但如果原始數(shù)據(jù)可用于將深度學(xué)習(xí)算法訓(xùn)練到給定的數(shù)據(jù)類(lèi)型,這些模型可能會(huì)非常準(zhǔn)確。一個(gè)例子是同一生物體/基因組的瓶中基因組細(xì)胞系,在同一實(shí)驗(yàn)室用相同的技術(shù)和實(shí)驗(yàn)室方案進(jìn)行測(cè)序

因此,深度學(xué)習(xí)變體調(diào)用主導(dǎo)了最近提交的precisionFDA Truth Challenge, 68% 的提交是基于深度學(xué)習(xí)的。 DeepVariant 本身贏得了多個(gè)類(lèi)別

DeepVariant 使用卷積神經(jīng)網(wǎng)絡(luò)在下一代測(cè)序( NGS )讀取或累積窗口中識(shí)別變體,并包括所有測(cè)序平臺(tái)的模型,不僅包括 Illumina 數(shù)據(jù),還包括 PacBio 數(shù)據(jù)、 Oxford Nanopore 數(shù)據(jù),以及新興測(cè)序平臺(tái)、全基因組樣本、外顯子組樣本等

NVIDIA Parabricks 提供 GPU-accelerated DeepVariant,以及其他幾種變體調(diào)用工具。它通過(guò) TensorRT 還包括多個(gè)此類(lèi)模型的優(yōu)化版本。

請(qǐng)參閱下面的 NVIDIA Parabricks DeepVariant 命令示例,如NVIDIA Parabricks documentation。所有 NVIDIA Parabricks 工具都是插入式替換命令,使相同的分析能夠在 GPU 上輕松運(yùn)行。

# This command assumes all the inputs are in  and all the outputs go to .
$ docker run --rm --gpus all --volume :/workdir --volume :/outputdir
    -w /workdir 
    nvcr.io/nvidia/clara/clara-parabricks:4.0.0-1 
    pbrun deepvariant 
    --ref /workdir/${REFERENCE_FILE} 
    --in-bam /workdir/${INPUT_BAM} 
    --out-variants /outputdir/${OUTPUT_VCF}

使用在適當(dāng)數(shù)據(jù)上訓(xùn)練的非常適合的模型可以對(duì)變體調(diào)用的后續(xù)準(zhǔn)確性產(chǎn)生重大影響。例如,與全基因組測(cè)序( WGS )數(shù)據(jù)相比,使用在全外顯子組測(cè)序( WES )數(shù)據(jù)上訓(xùn)練的 DeepVariant 模型的變體調(diào)用外顯子數(shù)據(jù)產(chǎn)生了 519 個(gè)更多的真陽(yáng)性調(diào)用, 42 個(gè)更少的假陽(yáng)性調(diào)用, 519 個(gè)更少的偽陰性調(diào)用

這意味著單核苷酸多態(tài)性( SNPs )的 F1 得分增加了 1% ,而 indel 的 F1 得分則增加了近 2% 。用 NVIDIA Parabricks 對(duì)瓶?jī)?nèi)基因組地面實(shí)況數(shù)據(jù)運(yùn)行的結(jié)果如表 1 所示。

HG003-WES-100x 類(lèi) 總位置 真陽(yáng)性 漏報(bào) 假陽(yáng)性 回憶起 精確 F1 得分
WES 模 1051 1020 31 9 0 . 97050 0 . 99143 0 . 98086
WES 模 SNP 25279 24976 303 46 0 . 98801 0 . 99816 0 . 99306
WGS 模 1051 1006 45 31 0 . 95718 0 . 97070 0 . 96389
WGS 模 SNP 25279 24471 808 66 0 . 96804 0 . 99731 0 . 98246

表 1 。 DeepVariant 全外顯子組模型顯示,與標(biāo)準(zhǔn)全基因組模型相比,準(zhǔn)確性顯著提高

能夠?qū)?DeepVariant 切換到更合適的模型,甚至根據(jù)特定的實(shí)驗(yàn)室協(xié)議微調(diào)模型(就像 Regeneron 為英國(guó)生物銀行所做的那樣),這是基于深度學(xué)習(xí)的變體調(diào)用的一個(gè)強(qiáng)大功能

一個(gè)新的 DeepVariant retraining tool現(xiàn)已在 NVIDIA Parabricks v4 . 1 中提供,使用戶(hù)可以在 NVIDIA GPU 上快速輕松地完成此操作。您可以訓(xùn)練模型來(lái)識(shí)別由于不同版本的測(cè)序儀、濕實(shí)驗(yàn)室試劑盒、試劑等而在數(shù)據(jù)中產(chǎn)生的任何非隨機(jī)偽影。

性?xún)r(jià)比高的以提高的速度進(jìn)行分析,得到同等的結(jié)果

與小面板分析相比,外顯子組數(shù)據(jù)的計(jì)算分析是時(shí)間和成本的逐步增加。對(duì)于臨床外顯子組測(cè)序分析,加速分析在大規(guī)模交付結(jié)果方面很重要。

Agilent Alissa Reporter software例如,通過(guò)在云中自動(dòng)縮放,利用 NVIDIA GPU 和 NVIDIA Parabricks 提供外顯子組分析。這意味著安捷倫可以以更低的成本和更快的運(yùn)行時(shí)間為數(shù)千個(gè)樣本向客戶(hù)提供基因組數(shù)據(jù)的臨床見(jiàn)解

安捷倫報(bào)告稱(chēng),他們的基礎(chǔ) GATK 工作流程以前需要 5 個(gè)小時(shí),成本高達(dá) 10 美元,現(xiàn)在已經(jīng)減少到 9 分鐘(運(yùn)行時(shí)間減少 96% ),每個(gè)樣本只需幾美元。

Alissa Reporter 的產(chǎn)品負(fù)責(zé)人 Joachim De Schrijver 說(shuō):“我們從樣本中獲得的信息越多越好。”。“對(duì)整個(gè)外顯子組而不是小的基因組進(jìn)行測(cè)序可以很好地實(shí)現(xiàn)這一點(diǎn),但每個(gè)樣本的 FASTQ 文件范圍從 5 到 10 GB 不等,這可能意味著需要數(shù)小時(shí)的計(jì)算才能提取有意義的影響生命的結(jié)果。”

“安捷倫 Alissa Reporter 利用 GPU 和 Parabricks 來(lái)解決這一問(wèn)題,并在幾分鐘內(nèi)處理數(shù)據(jù)。此外,這降低了云計(jì)算基礎(chǔ)設(shè)施的成本,使我們能夠提供極具競(jìng)爭(zhēng)力的定價(jià),”他補(bǔ)充道。

除了加速 DeepVariant , NVIDIA Parabricks 還加速了變體呼叫者的 GATK 最佳實(shí)踐版本,包括單倍型呼叫者(用于種系)和 Mutect2 (用于體細(xì)胞)。在 NVIDIA Parabricks 中,這兩種方法產(chǎn)生的結(jié)果與開(kāi)源版本相當(dāng)( SNPs 和 Indels 分別為 0 . 999 F1 ),但速度更快,成本更低。

在一個(gè)外顯子組上運(yùn)行 NVIDIA Parabricks 種系管道( BWA-MEM 、排序、標(biāo)記重復(fù)項(xiàng)、 BQSR 和 HaplotypeCaller 或 DeepVariant )可以將運(yùn)行時(shí)間從 3 小時(shí)以上(在標(biāo)準(zhǔn) CPU 實(shí)例上使用開(kāi)源等效程序)減少到 DeepVariation 的 11 分鐘(快 17 倍)和 HaploypeCaller 的 6 . 5 分鐘(快 33 倍)NVIDIA T4GPU 。

這個(gè)加速因子轉(zhuǎn)化為每個(gè)外顯子組節(jié)省了可觀的成本,因?yàn)閷?shí)例運(yùn)行的時(shí)間更短。如圖 2 所示,在 8 個(gè) NVIDIA T4 GPU 上使用 DeepVariant 運(yùn)行 NVIDIA Parabricks 種系管道,每個(gè)樣本的成本從 4 . 76 美元降低到 1 . 44 美元(便宜 70% ),使用 HaplotypeCaller 從 5 . 52 美元降低到 42 美分(便宜 92% )。

對(duì)于更復(fù)雜的管道,這些運(yùn)行時(shí)可以堆疊,使測(cè)序的分析步驟成為一個(gè)非常大的瓶頸。例如,在癌癥研究中,外顯子組是一種常見(jiàn)的測(cè)序方法,腫瘤和正常組織都經(jīng)常測(cè)序,覆蓋范圍更廣,這些腫瘤 – 正常對(duì)的標(biāo)準(zhǔn)外顯子管道在 CPU 實(shí)例上運(yùn)行可能需要 14 個(gè)小時(shí)。如圖 3 所示,僅在兩臺(tái) NVIDIA T4 GPU 上即可將時(shí)間縮短至 1 . 5 小時(shí)。

somatic-pipeline-runtime-chart.png 圖 3 。體細(xì)胞管道的運(yùn)行時(shí)間(以分鐘為單位),包括腫瘤文件的對(duì)齊、正常文件的對(duì)齊,腫瘤文件的處理,正常文件的處理以及用 mutect2 調(diào)用變體(分別顯示為深色到淺色)。在與圖 2 相同的情況下,使用 SEQC-2 172x 深度腫瘤外顯子組和 178x 正常外顯子。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4940

    瀏覽量

    102818
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46868

    瀏覽量

    237592
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5493

    瀏覽量

    120979
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何提高工程預(yù)算的準(zhǔn)確性

    例子進(jìn)行系統(tǒng)整理,并做好工程技術(shù)經(jīng)濟(jì)分析的資料積累,為以后工程選擇經(jīng)濟(jì)合理的設(shè)計(jì)方案施工方法提供重要的數(shù)據(jù)。總之,快速、準(zhǔn)確地編制工程預(yù)結(jié)算,需要我們認(rèn)真研究,大膽探索,努力實(shí)踐,不斷更新知識(shí)和技能,在此基礎(chǔ)上總結(jié)出一套提高工程
    發(fā)表于 07-25 17:35

    如何最大限度提高Σ-Δ ADC驅(qū)動(dòng)器的性能

    最大限度提高Σ-Δ ADC驅(qū)動(dòng)器的性能
    發(fā)表于 01-06 07:05

    全基因數(shù)據(jù)CNV分析簡(jiǎn)介 精選資料分享

    除了利用aCGH和snp芯片來(lái)檢測(cè)CNV之外,也可以通過(guò)NGS數(shù)據(jù)來(lái)分析CNV, 比如全基因和全外顯子測(cè)序。針對(duì)全基因
    發(fā)表于 07-29 08:24

    簡(jiǎn)單的校準(zhǔn)電路最大限度提高了鋰離子電池管理系統(tǒng)中的準(zhǔn)確

    簡(jiǎn)單的校準(zhǔn)電路最大限度提高了鋰離子電池管理系統(tǒng)中的準(zhǔn)確度 在鋰離子電池系統(tǒng)中,為了實(shí)現(xiàn)電池性能和使用壽命的最大化,使每節(jié)電池的充電狀態(tài)
    發(fā)表于 12-20 21:09 ?57次下載

    如何提高投標(biāo)報(bào)價(jià)編制的準(zhǔn)確性

        施工企業(yè)要在激烈的市場(chǎng)競(jìng)爭(zhēng)中戰(zhàn)勝對(duì)手,贏得工程項(xiàng)目,投標(biāo)報(bào)價(jià)的準(zhǔn)確性是關(guān)鍵。下面結(jié)合多年工作的實(shí)際,談一下如何提高投標(biāo)報(bào)價(jià)編制的準(zhǔn)確性
    發(fā)表于 01-08 15:36 ?13次下載

    深圳華大基因研發(fā)出猴外顯子測(cè)序分析平臺(tái)

    深圳華大基因公布其已研發(fā)出猴外顯子測(cè)序分析平臺(tái)。猴外顯子捕獲芯片和新一代高通量測(cè)序技術(shù)為該平臺(tái)的兩大核心技術(shù),使研究人員可以對(duì)每個(gè)猴基因
    發(fā)表于 11-27 16:22 ?707次閱讀

    利用NVIDIA模型分析最大限度提高深度學(xué)習(xí)的推理性能

    你已經(jīng)建立了你的深度學(xué)習(xí)推理模型并將它們部署到 NVIDIA Triton Inference Serve 最大模型性能。 你如何進(jìn)一步加
    的頭像 發(fā)表于 10-21 19:01 ?614次閱讀

    如何將機(jī)器學(xué)習(xí)模型準(zhǔn)確性從80%提高到90%以上

    數(shù)據(jù)科學(xué)工作通常需要大幅度提高工作量才能提高所開(kāi)發(fā)模型準(zhǔn)確性。這五個(gè)建議將有助于改善您的機(jī)器學(xué)習(xí)模型
    的頭像 發(fā)表于 12-10 14:39 ?1085次閱讀

    DN471 - 簡(jiǎn)單的校準(zhǔn)電路最大限度提高了鋰離子電池管理系統(tǒng)中的準(zhǔn)確

    DN471 - 簡(jiǎn)單的校準(zhǔn)電路最大限度提高了鋰離子電池管理系統(tǒng)中的準(zhǔn)確
    發(fā)表于 03-19 08:27 ?0次下載
    DN471 - 簡(jiǎn)單的校準(zhǔn)電路<b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>了鋰離子電池管理系統(tǒng)中的<b class='flag-5'>準(zhǔn)確</b>度

    應(yīng)用深度學(xué)習(xí)分析提高基因組分析準(zhǔn)確性

    識(shí)別基因變異,如可導(dǎo)致疾病的變異片段。我們?cè)?DeepVariant 方面的持續(xù)研究因其一流的準(zhǔn)確性而獲得肯定。借助 DeepTrio,我們擴(kuò)展了 DeepVariant,從而能夠在分析母親-父親-子女三人的基因序列數(shù)據(jù)時(shí)考
    的頭像 發(fā)表于 05-14 09:49 ?1867次閱讀
    應(yīng)用<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>分析</b><b class='flag-5'>提高</b>基因組<b class='flag-5'>分析</b>的<b class='flag-5'>準(zhǔn)確性</b>

    蓄能電池管理系統(tǒng)中最大限度提高電池監(jiān)測(cè)精度和數(shù)據(jù)完整

    蓄能電池管理系統(tǒng)中最大限度提高電池監(jiān)測(cè)精度和數(shù)據(jù)完整
    發(fā)表于 05-18 11:08 ?4次下載
    蓄能電池管理系統(tǒng)中<b class='flag-5'>最大限度</b><b class='flag-5'>提高</b>電池監(jiān)測(cè)精度和數(shù)據(jù)完整<b class='flag-5'>性</b>

    切換以最大限度利用SAN

    電子發(fā)燒友網(wǎng)站提供《切換以最大限度利用SAN.pdf》資料免費(fèi)下載
    發(fā)表于 09-01 11:23 ?0次下載
    切換以<b class='flag-5'>最大限度</b>地<b class='flag-5'>利用</b>SAN

    最大限度提高∑-? ADC驅(qū)動(dòng)器的性能

    電子發(fā)燒友網(wǎng)站提供《最大限度提高∑-? ADC驅(qū)動(dòng)器的性能.pdf》資料免費(fèi)下載
    發(fā)表于 11-22 09:19 ?0次下載
    <b class='flag-5'>最大限度</b><b class='flag-5'>提高</b>∑-? ADC驅(qū)動(dòng)器的性能

    最大限度提高MSP430? FRAM的寫(xiě)入速度

    電子發(fā)燒友網(wǎng)站提供《最大限度提高MSP430? FRAM的寫(xiě)入速度.pdf》資料免費(fèi)下載
    發(fā)表于 10-18 10:09 ?0次下載
    <b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>MSP430? FRAM的寫(xiě)入速度

    如何提升ASR模型準(zhǔn)確性

    提升ASR(Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別)模型準(zhǔn)確性是語(yǔ)音識(shí)別技術(shù)領(lǐng)域的核心挑戰(zhàn)之一。以下是一些提升ASR模型準(zhǔn)確性的關(guān)鍵方法: 一、優(yōu)化數(shù)
    的頭像 發(fā)表于 11-18 15:14 ?318次閱讀