計(jì)算生物學(xué)領(lǐng)域依賴于快速、準(zhǔn)確和易于使用的生物信息學(xué)工具。隨著下一代測(cè)序( NGS )的速度越來越快、成本越來越低,數(shù)據(jù)洪流正在出現(xiàn),人們對(duì)可訪問、高通量、行業(yè)標(biāo)準(zhǔn)分析的需求日益增長(zhǎng)。
2022 年 GTC ,我們宣布發(fā)布 NVIDIA Clara Parabricks v4.0 ,這對(duì)基因組研究人員和生物信息學(xué)家部署和擴(kuò)展基因組測(cè)序分析管道的方式帶來了重大改進(jìn)。
Clara Parabricks 軟件現(xiàn)在對(duì) NGC 研究人員免費(fèi)提供 作為單獨(dú)的工具或統(tǒng)一的容器。需要企業(yè)級(jí)支持的客戶可以通過 NVIDIA AI Enterprise 獲得許可版本。
Clara Parabricks 現(xiàn)在很容易集成到通用工作流語(yǔ)言中,例如工作流描述語(yǔ)言( WDL )和 NextFlow ,用于將 GPU 加速工具和第三方工具交織在一起,以及在本地和云中進(jìn)行可擴(kuò)展部署。還支持 Broad Institute 的 Cromwell 工作流管理系統(tǒng)。
CPU Parabricks 現(xiàn)在可以部署在 Broad Institute 的 Terra SaaS platform 上,使 25000 多名 Terra 科學(xué)家可以使用它。與 Clara 環(huán)境中的 24 小時(shí)相比,使用 Clara Parabricks 可以將基因組分析縮短到一小時(shí)多一點(diǎn),同時(shí)將整個(gè)基因組測(cè)序分析的成本降低 50% 。
Clara Parabricks 繼續(xù)專注于 GPU 加速、行業(yè)標(biāo)準(zhǔn)和基于深度學(xué)習(xí)的工具,并包括最新的 DeepVariant v1.4 生殖線調(diào)用者。 Clara Parabricks 的重點(diǎn)是開發(fā)與定序器無關(guān)的工具和深度學(xué)習(xí)方法。
Clara Parabricks 現(xiàn)在可以通過更多的云提供商和合作伙伴使用,包括 Amazon Web Services 、 Google cloud Platform 、 Terra 、 DNAnexus 、 Lifebit 、 Agilent Technologies 、英國(guó)生物銀行研究分析平臺(tái)( RAP )、 Oracle cloud Infrastructure 、 Naver cloud 、阿里云和百度 AI cloud 。
研發(fā)的免許可使用
Clara Parabricks v4.0 現(xiàn)在可完全免費(fèi)用于研發(fā)。這意味著比以往任何時(shí)候都更少的技術(shù)障礙,包括刪除以前版本的基因組分析軟件中存在的安裝腳本和企業(yè)許可服務(wù)器。
這也意味著大大簡(jiǎn)化了部署,能夠在任何 NVIDIA 認(rèn)證的系統(tǒng)上快速輕松地拉取和運(yùn)行 Clara Parabricks Docker 容器,在本地或云中使用最為方便。
需要企業(yè)級(jí)技術(shù)和工程支持以支持其生產(chǎn)工作流的商業(yè)用戶,或者需要與 NVIDIA 專家合作開發(fā)新功能、應(yīng)用程序和性能優(yōu)化的商業(yè)用戶現(xiàn)在可以訂閱 NVIDIA AI Enterprise Support 。 NVIDIA AI Enterprise v3.0 即將發(fā)布, Parabricks v4.0 將提供此支持。
NVIDIA AI Enterprise Support 訂閱提供全棧支持(從容器級(jí)別,到完全本地和云部署)、訪問 NVIDIA Parabricks 專家、安全通知、 IT 或數(shù)據(jù)科學(xué)等領(lǐng)域的企業(yè)培訓(xùn),以及對(duì) TensorFlow 、 PyTorch 、 NVIDIA TensorRT 和 NVIDIA RAPIDS 的深度學(xué)習(xí)支持。了解有關(guān) NVIDIA AI Enterprise Support Services and Training 的更多信息。
圖 1.免費(fèi)訪問 Clara Parabricks 中的所有工具,包括管道和工作流
在 WDL 和 NextFlow 工作流中部署
現(xiàn)在,您可以直接從 NGC collection containers 中提取 Clara Parabricks ,而無需授權(quán)服務(wù)器,這意味著它可以輕松地作為多種系統(tǒng)和平臺(tái)上可擴(kuò)展和靈活的生物信息學(xué)工作流的一部分運(yùn)行。
這包括流行的生物信息學(xué)工作流管理器 WDL 和 NextFlow ,可在新的 Clara-Parabricks-Workflows GitHub repo 上獲得,供生物信息學(xué)社區(qū)通用。您可以找到以下 WDL 和 NextFlow 工作流或模塊:
BWA-MEM 與 Clara Parabricks FQ2BAM 對(duì)齊和處理
運(yùn)行加速 HaplotypeCaller 和 DeepVariant 的生殖線調(diào)用工作流,可選擇應(yīng)用 GATK 最佳實(shí)踐
BAM2FQ2BAM 工作流程,用于提取讀取并重新對(duì)準(zhǔn)新的參考基因組(例如 T2T 完成的人類基因組)
使用加速 Mutect2 的體細(xì)胞工作流,具有可選的法線面板
為 VCF 中的體變量調(diào)用生成新法線面板的工作流
用于構(gòu)建參考索引的工作流(對(duì)于前面列出的幾個(gè)工作流和任務(wù)來說是必需的)
此外,與國(guó)家癌癥研究所的研究人員合作開發(fā)的三組數(shù)據(jù)中的從頭突變調(diào)用工作流將于今年晚些時(shí)候提供。
這些工作流帶來了令人印象深刻的靈活性,使用戶能夠?qū)?Clara Parabricks 的 GPU 加速工具與第三方工具交織在一起。他們可以為每個(gè)任務(wù)指定單獨(dú)的計(jì)算資源,然后在本地集群(例如,在 SLURM 上)或云平臺(tái)上大規(guī)模部署。有關(guān)示例配置和推薦的 GPU 實(shí)例,請(qǐng)參閱 Clara-Parabricks-Workflows GitHub repo 。
圖 2.直接從 Clara Parabricks Docker 容器中拉出并指定 gpuType and gpuCount compute requirements
在本地或云中運(yùn)行
Clara Parabricks 非常適合云部署。它可以在多種云平臺(tái)上運(yùn)行,包括 Amazon Web Services 、 Google Cloud Services 、 DNAnexus 、 Lifebit 、百度人工云、 Naver cloud 、 Oracle cloud Infrastructure 、阿里云、 Terra 等。
Clara Parabricks v4.0 WDL 工作流現(xiàn)已集成到 Broad Institute 的 Terra 平臺(tái)中,供 25000 多名科學(xué)家進(jìn)行加速基因組分析。 Terra 的可擴(kuò)展平臺(tái)運(yùn)行在 Google Cloud 之上,后者擁有 NVIDIA 車隊(duì) GPU 。在 CPU 環(huán)境中,對(duì) 30 倍全基因組進(jìn)行 FASTQ 到 VCF 分析需要 24 小時(shí),而在 Terra 環(huán)境中, Clara Parabricks 只需要一個(gè)多小時(shí)。此外,成本降低了 50% 以上,從 5 美元降至 2 美元(圖 3 )。
在 Terra 平臺(tái)中,研究人員可以比在本地環(huán)境中更容易地訪問大量數(shù)據(jù)。他們只需按一下按鈕就可以訪問 Terra Community Workbench Parabricks 工作區(qū),而不是手動(dòng)管理和配置硬件。從 Clara 上的 Clara Parabricks 頁(yè)面開始。
圖 3.在 Terra 中運(yùn)行的 FASTQ 到 VCF
當(dāng)使用 Clara Parabricks 和 NVIDIA GPU 時(shí), 30 倍全基因組(包括 BWA-MEM 、 MarkDuplicates 、 BQSR 和 HaplotypeCaller )的種系分析的運(yùn)行時(shí)間和計(jì)算成本(可搶占定價(jià))大大減少。
Clara Parabricks v4.0 工具和功能
Clara Parabricks v4.0 是一個(gè)比以前版本更專注的基因組分析工具集,具有快速校準(zhǔn)、金標(biāo)準(zhǔn)處理和高精度變體調(diào)用。它提供了自由無縫地交織 GPU 和 CPU 任務(wù)的靈活性,并優(yōu)先考慮基因組學(xué)工作流中最流行和瓶頸工具的 GPU 加速。 Clara Parabricks 還可以整合基因組學(xué)中的前沿深度學(xué)習(xí)方法。
圖 4. NVIDIA Clara Parabricks v4.0 工具集
單個(gè) Clara Parabricks 工具現(xiàn)在也可以在 Clara Parabricks collection on NGC 中的單個(gè)容器中提供,或者作為一個(gè)統(tǒng)一的容器,將所有工具包含在一個(gè)容器中。對(duì)于單個(gè)容器,生物信息學(xué)家可以訪問精益容器, Clara Parabricks 團(tuán)隊(duì)可以推動(dòng)更頻繁的敏捷工具發(fā)布,以訪問最新版本。
這些版本中的第一個(gè)是針對(duì) DeepVariant 1.4 版。這個(gè)最新版本的 DeepVarant 提高了多個(gè)基因組測(cè)序器的準(zhǔn)確性。 Illumina 全基因組和全外顯子組模型有一個(gè)額外的讀 – 插入 – 大小特征,可減少 4-10% 的錯(cuò)誤,并在 PacBio 測(cè)序運(yùn)行中直接定相以獲得更準(zhǔn)確的變體調(diào)用。這意味著您現(xiàn)在可以使用諸如 DeepVariant WhatsHap DeepVariant 或 PEPPER Margin DeepVarient 之類的管道,直接在 DeepVaarint 中執(zhí)行階段變量調(diào)用 PacBio 數(shù)據(jù)的高精度過程。
DeepVariant v1.4 還與新興基因組測(cè)序儀器的多個(gè)自定義 DeepVariant 模型兼容。與 NVIDIA Clara Parabricks 團(tuán)隊(duì)合作, GPU 加速了這些模型,以在測(cè)序儀器中提供快速、高精度的變量調(diào)用。 DeepVariant 1.4 版現(xiàn)已在 Clara Parabricks collection on NGC 中提供。
基因組學(xué)和精確醫(yī)學(xué)的深度學(xué)習(xí)方法是 Clara Parabricks 的一大重點(diǎn),并在 GTC 2022 NVIDIA and Broad Institute 關(guān)于基因組分析工具包( GATK )和 DNA 和 RNA 大型語(yǔ)言模型的進(jìn)一步發(fā)展的公告中予以強(qiáng)調(diào)。
關(guān)于作者
作為NVIDIA 基因組學(xué)的高級(jí)產(chǎn)品架構(gòu)師, Harry 致力于工程和產(chǎn)品開發(fā)之間的接口,利用NVIDIA 在人工智能、高性能計(jì)算( HPC )和數(shù)據(jù)分析堆棧方面的專業(yè)知識(shí),以加速高精度解決方案解決基因組學(xué)工作流問題。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4940瀏覽量
102817 -
gpu
+關(guān)注
關(guān)注
28文章
4702瀏覽量
128708 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5493瀏覽量
120979
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論