AI能夠映射大腦神經元。人類大腦包含大約860億個神經元,并且一個立方毫米的神經元可以產生超過1000TB的數據。由于其龐大的規模,繪制神經系統內部結構的過程是計算密集和繁瑣的。為了加速這一過程,谷歌和德國馬克斯普朗克神經生物學研究所的研究人員開發了一種基于深度學習的系統,可以自動映射大腦的神經元。這是 AI 解決21世紀重大工程挑戰的又一成功例證。
谷歌AI負責人Jeff Dean演講時總愛用一張PPT,那就是用機器學習解決21世紀重大工程問題,其中就包括人腦逆向工程,谷歌和馬克思普朗克研究所等機構合作,從理解大腦神經網絡的圖像入手,試圖重構生物神經網絡。
在之前的報告中,Jeff Dean提到他們提出了一種模擬生成神經網絡的算法“Flood-Filling Networks”,可以使用原始數據,利用此前的預測,自動跟蹤神經傳導。
今天,描述相關研究的論文正式在 Nature Methods 發表,他們的方法不但能自動分析大腦連接組數據,還將準確度提高了一個數量級,突破了當前連接組學的一個重要瓶頸!
研究人員表示,他們的算法比以前的自動化方法準確度提高了10倍。這是 AI 在推動基礎科學發展的又一項成功例證,大大推動了我們對人腦數據的解析,也有助于構建更好的人工智能。
正如 Jeff Dean 所說,機器學習能夠用于幫助乃至解決人類重大工程挑戰。
自動分析大腦連接數據,將精度提高一個數量級!
連接組學(Connectomics)旨在全面地映射神經系統中發現的神經元網絡的結構,以便更好地理解大腦如何工作。這個過程需要以納米分辨率(通常使用電子顯微鏡)對3D腦組織進行成像,然后分析所得到的圖像數據,追蹤大腦的神經節并識別各個突觸連接。由于成像的高分辨率,即使只有一立方毫米的腦組織,也可以產生超過1000TB的數據!再加上這些圖像中的結構可能非常微妙和復雜,構建大腦連接圖的主要瓶頸實際上并不在于獲取數據,而是如何自動分析這些數據。
今天,谷歌與馬克斯普朗克神經生物學研究所的同事合作,在Nature Methods發表了《使用Flood-Filling網絡高效自動重建神經元》(High-Precision Automated Reconstruction of Neurons with Flood-Filling Networks),展示了一種新型的遞歸神經網絡如何提高自動解析連接組數據的準確性。不僅如此,與先前的深度學習技術相比,提高了一個數量級。
使用 Flood-Filling 網絡進行三維圖像分割
在大規模電子顯微鏡數據中追蹤神經節是一個圖像分割問題。傳統算法將這個過程分為至少兩個步驟:首先,使用邊緣檢測器或機器學習分類器找出神經節之間的邊界,然后使用watershed 或 graph cut 等算法,將未被邊界分隔的圖像像素分組組合在一起。
2015年,谷歌與馬克斯普朗克神經生物學研究所的團隊開始嘗試基于遞歸神經網絡的替代方法,將上述兩個步驟統一起來。新的算法從特定的像素位置開始生長,然后使用一個循環卷積神經網絡不斷“填充”一個區域,網絡會預測哪些像素是與初始的那個像素屬于同一個物體。在2D中分割物體的Flood-Filing網絡。黃點是當前焦點區域的中心;隨著算法不斷迭代,檢查整個圖像,分割區域不斷擴展(藍色)。
通過預期運行長度來測量準確性,優于以往深度學習方法
自2015年以來,谷歌與馬普研究所的研究人員一直致力于將這種新方法應用于大規模的連接組數據集,并嚴格量化其準確性。
他們提出了名為“預期運行長度”(ERL)的概念:在大腦的3D圖像中給定一個隨機的神經元,在跟蹤出錯前,能夠對其追蹤多長距離?
這是一個典型的“失敗前的平均時間”的問題,不過在這個問題中,研究人員查看的是兩次失敗之間的空間,而不是時間。ERL吸引人的地方在于,它可以將線性的物理路徑與算法出現個別錯誤的頻率聯系起來,以便于直接計算。對于生物學家來說,ERL的數值與生物學上的數量存在相關性,比如神經系統中不同部分的神經元的平均路徑長度。采用ERL方法(藍色線)的結果表現最好,紅色線表示“合并率”,即兩個獨立的神經元被錯誤地當成一個目標進行跟蹤的頻率。將合并率保持在一個很低的水平,對于研究人員手動辨別并改正其他錯誤具有很重要的意義。
研究人員利用ERL方法測量了100萬立方微米的斑胸草雀大腦掃描圖像中的神經元真實數據集,結果表明,新方法比以往使用同樣數據集的其他深度學習途徑的表現要好。
ERL算法追蹤斑胸草雀大腦中的一個神經元
重構斑胸草雀大腦中的一部分。不同顏色表示不同區域,都是使用Flood-Filing網絡自動生成的。金球代表使用以前的方法自動識別的突觸位置
斑胸草雀又稱珍珠鳥,屬于雀形目梅花雀科,分布于澳洲。 身長10-11cm,主要以禾本科植物的種子為食。 斑胸草雀與其他梅花雀科鳥類同樣有高度的社會性,雄鳥會通過“唱情歌”向雌鳥求偶。常用于脊椎動物腦、行為和演化研究的模型。
研究人員利用新的Flood-Filling網絡,對斑胸草雀大腦中的一小部分神經元做了劃分。將來,他們計劃利用突觸級分辨率技術繼續改進連接重構。
為了幫助更大的社區推進與該技術的相關研究,Tensorflow代碼現已開源,谷歌還公布了他們開發的面向3D數據集的WebGL可視化軟件,用于理解和改進該研究結果。
Flood-Filling網絡的訓練、推斷和結構
在今天發表于 Nature Methods 的論文中,研究人員詳細介紹了他們的方法。當然,我們最關心的還是 Flood-Filling 網絡的訓練,推斷和結構。
研究人員在論文中寫道,我們得到了一個96x96x114μm的區域,并用串行塊面EM25成像,其分辨率為9×9×20nm。 對于分類器訓練,數據集的一小部分由KNOSSOS的人類注釋器分段。然后使用這些注釋作為訓練FFN的ground-truth。
FFN具有兩個輸入通道:一個用于3D圖像數據,一個用于對象形狀(叫做預測對象圖(POM)的數據結構)的當前預測。對于每個體素(voxel),POM編碼(使用0和1之間的值)算法對體素是否屬于當前正被分割對象的估計。
在訓練期間,通過在每個49×49×25體素訓練樣本的中心播種(seed)單個體素來初始化POM。 我們在遠離假定單元邊界的位置自動生成單體素種子,以避免合并(兩個或多個進程錯誤地彼此連接)。 在網絡推斷的每次迭代之后,POM的值用于通過隨機梯度下降來調整網絡權重,每使用一個體素,交叉熵(cross-entropy)損失26(圖1a,b和方法)。
每個推理步驟的結果影響FOV移動的位置、決定哪個體素分類被凍結以及神經突擴展何時完成。
FFN的核心體系結構是多層卷積神經網絡(CNN),它基于輸入數據和先前的POM值在每次迭代期間更新POM值。此實驗在FFN實施中選擇使用單個3D FOV尺寸(33×33×17體素,297×297×340 nm)進行EM數據輸入,推理輸出和循環反饋。
預期運行長度的工作原理
不規則檢測和自動組織分類
許多推理錯誤發生在數據不規則處,例如切割偽像(cutting artifacts)或對齊(alignment)錯誤。在songbird volume EM數據集中,由于不規則性過于頻繁而不能被忽略,但數量太少而無法有效學習(最多影響音量的1%)。 我們沒有在訓練集中豐富它們,而是通過互相關(cross-correlation方法)檢測它們,并防止超級體素跨越任何不規則性。
當神經纖維被諸如somata或血管的組織結構中斷時,分割質量通常會降低,這些組織結構比典型的軸突,樹突和FOV大幾個數量級。 為了防止FFN冒然進入這種結構,我們訓練了一個單獨的CNN,稱之為組織分類CNN,并用它來描繪這種結構。
滯后和近似尺度不變性
由FFN重建的神經突形狀取決于初始種子在神經突內的位置,并且當重建神經突的順序或種子的位置改變時,它會發生顯著改變。事實上,這種可變性可用于檢測和消除在校對過程中難以修復的合并,代價是產生一些額外的分裂(兩個過程彼此錯誤地斷開),這些是比較容易修復的。我們還研究了不同分辨率下數據集的重新取樣,并發現在五個分割中的對一個oversegmentation consensus 合并的數量最大程度的減少了(82倍)(分割率僅增加了兩倍)(圖1c,d和方法)。
分割pipeline
我們將數據對齊、組織分類、FFN推斷、過分割共識、FFN-scored集和生物合理性測試結合到pineline中,并用它來分割整個斑胸草雀的體積。
大規模分割精度
為了測量分割結果的準確性,我們對單個神經元進行了骨骼化處理。人類注釋者使用KNOSSOS軟件手工地將單個神經元的結構注釋為一組節點和邊緣。我們創建了一個調優集和一個測試集,分別包含12和50個神經元,中位數為0.8 mm和1.9mm,總路徑長度為13.5mm和97mm(27%和34%軸突)。我們專門使用這些集合來優化分割pipeline的超參數,并分別對性能進行評估。
在觀察到的與自動分段重疊的基礎上,我們將ground truth骨架的每條邊分別歸類分段中的重構、省略(一個或兩個端節點不在任何段中)、分裂或合并分段的一部分。在成像體積中,大約1.4%的路徑長度被人工骨骼化。這使我們能夠自動地檢測出發生的所有分裂,但觀察到的合并數量相比真是數量嚴重減低。
最后,我們計算了一個預期的運行長度(expected run length,ERL),它測量了屬于隨機放置的起始點的片段中包含的平均神經元軸突長度。
我們的最終重構(FFN-c,應用了整個pineline)的ERL達到1.1毫米,并在97毫米神經元軸突長度的骨架測試集中包含四個合并(見:圖1為定性分析,圖2為定量分析,包括分裂計數)。
圖1:基于檢測的分割精度分析
圖2:分割精度的定量分析
為了更好地評估FFN-c的性能,我們對斑胸草雀數據集應用了兩種最先進的替代方法,并量化了分割性能。第一個(“baseline”)方法結合了一個3D卷積神經網絡,利用網格搜索對關聯圖域參數進行了優化,并對標記數據進行了隨機森林分類器的聚類。第二種方法是SegEM,其中3D 卷積神經網絡邊界預測 boundary prediction被用分水嶺算法進行過分割。
通過這些途徑,baseline方法實現最高的ERL(112μm;圖3),比FFN的結果差一個數量級。
神經突類型的誤差
我們手工將ground truth骨架中的神經突碎片分類為軸突或樹突,并且記錄了182個樹突棘的基部和頭部的位置。然后,我們使用這些數據來測量不同神經突類別的FFN-c分段的錯誤率。我們觀察到自動重建在識別樹突棘方面優于人類注釋(分別為95%和91%recall率)。雖然兩組的精確度都接近100%,但自動化結果略高(自動重建為99.7%和100%,而人工重建的樹突和軸突分別為98%和99%),自動重建組中的樹突和軸突recall率不如人類注釋所獲得的(自動化過程分別為68%和48%,而人工生成的數據分別為89%和85%)。
其他物種和成像方法
FIB-25是果蠅視神經葉的公共數據集,通過8×8×8 nm的聚焦離子束掃描EM成像,已被用于基準分割方法。 同樣用作公共分割基準,SNEMI3d是小鼠體感皮層的數據集。FFNs應用于held-out測試集,獲得了“超過人類”的表現。
-
谷歌
+關注
關注
27文章
6142瀏覽量
105096 -
AI
+關注
關注
87文章
30137瀏覽量
268411 -
神經元
+關注
關注
1文章
363瀏覽量
18438 -
深度學習
+關注
關注
73文章
5492瀏覽量
120976
原文標題:【Nature重磅】谷歌AI自動重構3D大腦,最高精度繪制神經元
文章出處:【微信號:cas-ciomp,微信公眾號:中科院長春光機所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論