精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解析DARTS:海量數據訓練和新樣本特征的綜合

mK5P_AItists ? 來源:YXQ ? 2019-04-17 09:11 ? 次閱讀

摘要:研究人員首次將深度學習與貝葉斯假設檢驗結合,利用深度學習強化RNA可變剪接分析的準確性。

在生命科研領域,常有人說深度學習的基因組學應用好比是“一個盲人在一間黑暗的房子里尋找一頂并不存在的黑色帽子”。言下之意,是遺憾深度學習的基因組學應用并沒有給人們帶來太多驚喜。不過,近日賓夕法尼亞大學和費城兒童醫院教授邢毅團隊的一項研究,找到了這樣一頂“黑帽子”。

這項發表在《自然—方法》上的論文成果,提出了一種新的計算框架——DARTS(“利用深度學習強化對RNA-seq的可變剪接分析”英文的首字母縮寫)。該計算框架首次將深度學習與貝葉斯假設檢驗結合,用于RNA可變剪接分析。這種結合使得它即使對于測序深度不那么高的樣品,也能有效提高RNA-seq定量差異剪接的準確度。

清華大學生命科學學院教授張強鋒點評道:“DARTS綜合了深度學習和貝葉斯假設檢驗統計模型的優點,為那些低測序深度的數據提供了更好的做可變剪接分析的手段,拓展了傳統RNA-seq可變剪接分析的敏感度和準確度。”

計算基因組學中

一個廣受關注的問題

邢毅等人在上述論文中指出,目前,RNA-seq技術是研究RNA剪接最常用的實驗手段。然而,RNA-seq技術雖然能較好地定量基因表達的結果,但對于差異剪接分析來說,它依賴于更高的測序深度。而且即便如此,現有的計算方法還不能較準確地定量低表達基因的剪接變化。因此,為了提高剪接定量的準確性,急需引入新的計算分析方法。

“可變剪接現象從20世紀70年代被發現后,其基本的科學問題聚焦為可變剪接位點發現、差異分析、調控元件和網絡的發現和構建。RNA-seq 技術的發明,使得系統、定量的可變剪接差異分析成為可能。”張強鋒介紹說,大量測序數據的可變剪接差異分析需要優秀的統計模型和計算工具,因此一直是一個需要高度技巧的生物信息學研究課題。

據張強鋒介紹,邢毅研究組在針對大量測序數據的可變剪接差異分析的計算分析領域深耕多年,已經貢獻了多個有影響力的算法和計算工具。該團隊針對高通量RNA-seq數據開發出的用于差異剪接分析的rMATS等軟件,對于測序較深、質量較好的數據集都能取得不錯的結果,已在全世界范圍內被廣泛下載使用。

然而,由于成本等原因,大量RNA-seq 測序實驗設計的測序深度較淺。對于這些數據集,能利用來做差異分析的可變剪接事件非常有限。

美國卡耐基梅隆大學計算機學院教授馬堅也表示,在基因組學中,確實有很多類似的問題——如何在現有數據上對特定的基因組標注(譬如染色質結構、轉錄因子結合)訓練一個機器學習模型并在全新的細胞系中有效預測,已經成為一個計算基因組學中廣泛關注的問題。“DARTS嶄新的整體設計理念值得很多其他類似的問題借鑒。”

DARTS計算框架

給出問題答案

據邢毅研究組這篇發表在《自然—方法》上的論文介紹,DARTS由兩部分構成:深度神經網絡模塊(DNN)和貝葉斯推斷模塊(BHT)。其中,DNN基于順式序列特征和樣品特異的RNA結合蛋白表達水平特征來預測差異剪接的結果;而BHT則通過整合實驗樣品測序數據本身和基于深度神經網絡的先驗概率來推斷差異剪接的結果。

研究者在論文中強調稱,與其他計算方法不同的是,在DARTS計算框架下,DNN不僅通過順式序列特征來預測可變剪接的結果,而且還將樣品中RNA結合蛋白的表達水平整合進了RNA可變剪接結果的預測中,增加了預測參數的維度。

DARTS的邏輯是,通過DNN對ENCODE和Roadmap數據庫中大量RNA-seq結果的深度學習,能夠獲得高精度的預測值作為BHT中的貝葉斯先驗概率,進而結合具體實驗中RNA-seq的結果,來獲得更為準確的差異剪接推斷。

在研究實踐中,邢毅研究組發現,在低通量RNA-seq文庫中,通過使用DNN預測值進行強化分析后,能夠達到比使用傳統方法分析更高的準確度,并且這種提升在越低通量的文庫中越明顯;即使在高通量的RNA-seq文庫中,使用DNN預測仍能發現在低表達基因中的可變剪接變化。而在過去,這些低表達基因的可變剪接變化在傳統分析方法中往往會被忽略。

也就是說,研究結果證明了DARTS不僅提升了基于RNA-seq方法研究可變剪接的準確性,同時也提供了在低表達基因中研究可變剪接的研究手段。

解析DARTS:

海量數據訓練和新樣本特征的綜合

“從計算方法設計的策略和概念角度而言,此工作的最大亮點是充分利用海量公有數據如ENCODE,但模型本身又不完全依賴于這些公有數據。”馬堅點評道,換言之,DARTS的整體思想是用深度神經網絡從現有海量數據中找出通用的有用信息作為先驗,然后用貝葉斯假設檢驗結合來自樣本本身的RNA-seq數據信息,做可變剪接的預測,“這有效綜合了海量數據的訓練以及新樣本的特殊性”。

馬堅解釋說,從模型本身的技術角度而言,DARTS有效利用了深度神經網絡對異質數據特征的整合,并且整個計算方法的評測和方法都比較“明智而審慎”。他舉例說,比如DARTS的深度神經網絡部分結合了剪接位置附近的序列信息、進化信息、可變剪接產生的RNA二級結構信息等;同時DARTS還巧妙地利用深度神經網絡預測的結果來作為貝葉斯假設檢驗中的先驗數據,結合樣本本身的RNA-seq序列信息實現了更可靠的可變剪接預測。

馬堅將基因組學形容為一個“存在太多未知和容易迷失的領域”,因此他認為,有效深度學習的使用需要有強大的領域知識作為支撐。而DARTS工作恰恰體現了邢毅實驗室多年以來對可變剪接機理的研究和計算方法創新的積累。“由深入的領域知識和經驗作為指導,是一個有效利用不同計算模型和深度學習方法的優勢實現基因組學新發現的經典工作。”

張強鋒也直指“巧妙利用公開的RNA-seq大數據樣本、使用深度神經網絡學習得到了外顯子差異剪接的貝葉斯假設檢驗統計模型的準確先驗概率分布”是DARTS在方法上最大的特色。同時他也表示,該計算框架使用深度神經網絡通過順式序列和反式因子RBP表達豐度進行差異剪接預測的思路也值得借鑒。

此外,馬堅認為論文中其他對于機器學習方法的評測同樣可圈可點。例如,對常見的正負樣本不均衡的問題對模型訓練和評測可能帶來的偏差有細致的控制。另外,該計算框架對模型中每個模塊的貢獻也做了詳細分析。

“隨著RNA-seq數據的不斷積累,相信DARTS會有廣泛的應用,尤其是在RNA-seq測序深度并不高的實驗情況下。”馬堅說,這個計算工具對進一步理解可變剪接在不同細胞狀態下的調控機理有深遠的意義。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    6892

    瀏覽量

    88828
  • 深度學習
    +關注

    關注

    73

    文章

    5492

    瀏覽量

    120977

原文標題:科學家找到深度學習基因組學應用的一頂“黑帽子”

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    海量數據處理需要多少RAM內存

    海量數據處理所需的RAM(隨機存取存儲器)內存量取決于多個因素,包括數據的具體規模、處理任務的復雜性、數據庫管理系統的效率以及所使用軟件的優化程度等。以下是對所需內存量的分析: 一、內
    的頭像 發表于 11-11 09:56 ?158次閱讀

    什么是協議分析儀和訓練

    長時間、大規模的分析。 軟件型協議分析儀:基于計算機軟件的工具,通過安裝在計算機上實現網絡數據包的捕獲、解析和分析,靈活且便于擴展。 二、訓練器在電子設計和測試領域,訓練器通常與協議分
    發表于 10-29 14:33

    Llama 3 模型訓練技巧

    Llama 3 模型,假設是指一個先進的人工智能模型,可能是一個虛構的或者是一個特定領域的術語。 1. 數據預處理 數據是任何機器學習模型的基礎。在訓練之前,確保數據質量至關重要。
    的頭像 發表于 10-27 14:24 ?228次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習:模型采用自監督學習策略,在大量無標簽文本
    發表于 08-02 11:03

    海上電磁干擾訓練系統

    智慧華盛恒輝海上電磁干擾訓練系統是一種專門用于模擬海上電磁環境、訓練人員應對電磁干擾能力的系統。以下是對海上電磁干擾訓練系統的詳細解析: 智慧華盛恒輝系統概述 智慧華盛恒輝海上電磁干擾
    的頭像 發表于 07-15 16:05 ?232次閱讀

    BP神經網絡最少要多少份樣本

    等。然而,BP神經網絡的訓練需要大量的樣本數據,需要根據問題的復雜性、數據的可用性和計算資源等因素,綜合確定樣本數量以保證網絡的泛化能力。
    的頭像 發表于 07-11 10:31 ?468次閱讀

    pytorch如何訓練自己的數據

    本文將詳細介紹如何使用PyTorch框架來訓練自己的數據。我們將從數據準備、模型構建、訓練過程、評估和測試等方面進行講解。 環境搭建 首先,我們需要安裝PyTorch。可以通過訪問Py
    的頭像 發表于 07-11 10:04 ?446次閱讀

    神經網絡如何用無監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中無監督學習是一種重要的訓練策略。無監督學習旨在從未標記的數據中發現數據內在的結構、模式或規律,從而提取有用的
    的頭像 發表于 07-09 18:06 ?699次閱讀

    機器學習中的數據預處理與特征工程

    在機器學習的整個流程中,數據預處理與特征工程是兩個至關重要的步驟。它們直接決定了模型的輸入質量,進而影響模型的訓練效果和泛化能力。本文將從數據預處理和
    的頭像 發表于 07-09 15:57 ?300次閱讀

    人臉識別模型訓練是什么意思

    人臉識別模型訓練是指通過大量的人臉數據,使用機器學習或深度學習算法,訓練出一個能夠識別和分類人臉的模型。這個模型可以應用于各種場景,如安防監控、身份認證、社交媒體等。下面將介紹人臉識別模型訓練
    的頭像 發表于 07-04 09:16 ?482次閱讀

    特征工程與數據預處理全解析:基礎技術和代碼示例

    在機器學習和數據科學的世界里,數據的質量是建模成功與否的關鍵所在。這就是特征工程和數據預處理發揮作用的地方。本文總結的這些關鍵步驟可以顯著提高模型的性能,獲得更準確的預測,我們將深入研
    的頭像 發表于 06-26 08:28 ?433次閱讀
    <b class='flag-5'>特征</b>工程與<b class='flag-5'>數據</b>預處理全<b class='flag-5'>解析</b>:基礎技術和代碼示例

    助聽器降噪神經網絡模型

    增強,并在大規 模數據集上進行訓練。我們能夠展示在堆疊網絡 方法中使用兩種類型的分析和綜合基礎的優勢。 DTLN 模型在嘈雜的混響環境中運行穩健。盡管 我們將基本訓練設置與簡單的架構相
    發表于 05-11 17:15

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    訓練數據時,數量、質量和多樣性三者缺一不可。 數據的多樣性對于大語言模型至關重要,這主要體現在數據的類別和來源兩個方面。豐富的數據類別能夠
    發表于 05-07 17:10

    利用神經網絡對腦電圖(EEG)降噪

    噪的STFT重構結果。使用時頻特征特別是在信噪比(SNR)較低時可以提高性能。 EEGdeniseNet數據集包含4514個干凈的EEG片段和3400個EOG片段,可用于生成三個數據集,用于
    發表于 04-30 20:40

    不同頻段的劃分及特征解析

    不同頻段的劃分及特征解析? 在無線通信中,不同頻段的劃分是為了在頻譜資源有限的情況下,能夠有效地進行頻率的分配和共享,以提高通信系統的效率和性能。不同頻段的劃分是根據頻率范圍、傳輸速率、功率等因素
    的頭像 發表于 11-27 16:19 ?1.4w次閱讀