------ 【導讀】------
在一篇恐慌中給你一點安全感。樹莓派,我們不一樣!
過去幾天,對 Meltdown 和 Spectre 安全漏洞的討論甚囂塵上。該漏洞影響了所有的現代英特爾處理器,Spectre 還影響了 AMD 處理器和 ARM 內核。Spectre 漏洞使得攻擊者可以繞過軟件檢查讀取當前地址空間中的任意位置數據;Meltdown 漏洞使得攻擊者可以讀取操作系統核地址空間的任意位置數據(用戶程序通常不可訪問該數據)。這兩種漏洞皆通過邊信道攻擊(side-channel attack)利用很多現代處理器都有的性能特征(緩存和推測執行)泄漏數據。近日,樹莓派創始人 Eben Upton 稱樹莓派不受這些漏洞的影響,并撰文詳解其原因。
谷歌 Project Zero 團隊發現的漏洞分別被稱為「Meltdown」和「Specter」。這些漏洞允許惡意程序從其它程序的內存中竊取信息,這意味著惡意程序可以監聽密碼、賬戶信息、密鑰及理論上存儲在進程中的任何內容。
其中,「Meltdown」影響英特爾處理器,它打破了用戶應用程序和操作系統之間最基本的隔離。這種攻擊允許程序訪問其它程序和操作系統的內存,這可能導致數據泄露。而「Spectre」除了能影響英特爾處理器外,還能影響 AMD 與 ARM 架構的大量處理器,這意味著除服務器與個人電腦以外,智能手機等終端設備也會受到影響,幾乎所有現代計算機處理器均無法幸免。它打破了不同應用程序之間的隔離,這意味著,攻擊者可以使用惡意程序來獲取被隔離的私有數據。
英特爾近日表示,在未來數周內將有軟件補丁發布。盡管大多數 PC 用戶不會受到影響,但安全補丁會導致處理器 0-30% 的運算速度下降。
根據Eben Upton所述,大量類似樹莓派的廉價計算設備可能同樣也不會受到兩種安全漏洞的影響,包括很多低端安卓手機。
本文介紹現代處理器設計的一些概念,使用簡單的 Python 程序解釋這些概念,比如:
t = a+b u = c+d v = e+f w = v+g x = h+i y = j+k
盡管你的計算機處理器不會直接執行 Python,但這里的語句足夠簡單,大致相當于簡單的機器指令。本文不詳述過多處理器設計中的重要細節(主要是 pipelining 和寄存器重命名),它們對理解 Spectre 和 Meltdown 的工作原理不太重要。
想全面了解處理器設計和現代計算機架構,可參閱 Hennessy 和 Patterson 的經典著作《Computer Architecture: A Quantitative Approach》。
什么是標量處理器?
最簡單的現代處理器每次循環執行一個指令,我們稱之為標量處理器。上述示例在標量處理器上需要執行六次循環。
樹莓派 1 和樹莓派 Zero 中使用的 Intel 486 和 ARM1176 都是標量處理器。
什么是超標量處理器?
很明顯,加速標量處理器的方式就是提高其時鐘頻率(clock speed)。但是,我們很快就到達處理器內部邏輯門運行的極限;因此處理器設計人員開始尋找一次性處理多件事情的方式。
有序超標量處理器檢查收到的大批指令,嘗試在一個 pipeline 中一次性執行多個指令,這取決于指令之間的依賴關系。依賴關系很重要:你或許認為雙向超標量處理器可以將 6 個指令配對執行,如下所示:
t, u = a+b, c+d v, w = e+f, v+g x, y = h+i, j+k
但是這沒有作用:我們必須先計算 v 再計算 w,即第三個和第四個指令無法同時執行。雙向超標量處理器實際上無法找到與第三個指令配對的指令,因此,該示例將執行四個循環:
t, u = a+b, c+d v = e+f # second pipe does nothing here w, x = v+g, h+i y = j+k
超標量處理器包括 Intel Pentium 以及樹莓派 2 和樹莓派 3 分別使用的 ARM Cortex-A7 和 Cortex-A53。樹莓派 3 的時鐘頻率只比樹莓派 2 高 33%,但性能大約是后者的 2 倍:部分原因在于 Cortex-A53 超出 Cortex-A7 的對大量指令的配對執行能力。
什么是無序處理器(out-of-order processor)?
回到我們的示例,我們可以看到即使 v 和 w 之間存在依賴關系,我們也可以找到其他獨立的指令填補第二次循環中空的 pipe。無序超標量處理器能夠打亂指令的順序(同樣受限于指令之間的依賴關系)以保持每個 pipeline 都處于忙碌狀態。
無序處理器可以有效交換 w 和 x 的順序:
t = a+b u = c+d v = e+f x = h+i w = v+g y = j+k
允許執行三次循環:
t, u = a+b, c+d v, x = e+f, h+i w, y = v+g, j+k
無序處理器包括 Intel Pentium 2(以及大部分后續 Intel 和 AMD x86 處理器,除了一些 Atom 和 Quark 設備)和很多近期的 ARM 處理器,如 Cortex-A9、-A15、-A17、-A57。
什么是分支預測器(branch predictor)?
上述示例是直線式代碼塊。真正的程序不是這樣的:他們還包括正向分支(用于實現條件運算,如 if 語句)、反向分支(用于實現 loop)。分支可能是無條件的(通常被采用),也可能是有條件的(是否采用取決于計算值)。
獲取指令時,處理器可能遇到依賴于計算值的條件分支(而該值目前尚未計算出)。為了避免停頓,處理器必須猜測下一個要獲取的指令:內存順序(對應未采用分支)或分支目標(對應采用分支)上的下一個指令。分支預測器通過收集某一個分支之前被采用頻率的相關統計數據,幫助處理器猜測該分支是否被采用。
現在分支預測器非常復雜,可以生成非常準確的預測。樹莓派 3 的額外性能部分是由于 Cortex-A7 和 Cortex-A53 之間分支預測的改進。但是,攻擊者也可以通過執行精心設計的一系列分支,誤訓練分支預測器作出較差的預測。
什么是推測?
重排序順序指令(reordering sequential instruction)是一種恢復指令級別并行化的強大方法,但是由于處理器變得更寬(能夠一次執行三個或四個指令),保證所有 pipeline 處于忙碌狀態變得更難了。因此,現代處理器提高了推測能力。推測執行可以處理并不需要的指令:這樣就可以保證 pipeline 處于忙碌狀態,如果最后該指令沒有被執行,我們只需要放棄結果就可以了。
推測執行不必要的指令(以及支持推測和重排序的基礎架構)需要耗費大量能源,但是在很多情況下為了獲取單線程性能的提升,這種方法是值得的。分支預測器用于選擇通過程序最可能的路徑,最大化推測獲得收益的可能性。
為了展示推測的好處,我們可以看一下另一個示例:
t = a+b u = t+c v = u+d if v: w = e+f x = w+g y = x+h
現在,我們具備從 t 到 u 到 v、從 w 到 x 到 y 的依賴關系,那么沒有推測的雙向無序處理器無法填充第二個 pipeline。它用三次循環來計算 t、u 和 v,之后處理器知道 if 語句的主體是否被執行,然后用三次循環來計算 w、x 和 y。假設 if(由一個分支指令實現)使用了一次循環,那么該示例可以執行四次(v 是零)或七次循環(v 不是零)。如果分支預測器表明 if 語句的主體很可能被執行,那么推測可以有效打亂程序,如下:
t = a+b u = t+c v = u+d w_ = e+f x_ = w_+g y_ = x_+h if v: w, x, y = w_, x_, y_
因此現在我們有了額外的指令級別的并行來保持 pipeline 繁忙:
t, w_ = a+b, e+f u, x_ = t+c, w_+g v, y_ = u+d, x_+h if v: w, x, y = w_, x_, y_
循環計數在推測性無序處理器中變得不太明確,但是 w、x 和 y 的分支和條件更新(幾乎)是空閑的,因此上述示例幾近于執行三個循環。
什么是緩存?
在過去,處理器速度與內存訪問速度成正比。我的 BBC Micro(2MHz 6502),可以每 2μs(微秒)執行一次指令,存儲周期為 0.25μs。在接下來的 35 年中,處理器已經變的非常快,但是內存幾乎沒變化:樹莓派 3 中的一個 Cortex-A53 可以每 0.5ns(納秒)執行一次指令,但是可能需要 100ns 才能訪問主存。
a = mem[0] b = mem[1]
需要 200ns。
但在實踐中,程序傾向于以相對可預測的方式訪問內存,同時展示時間局部性(如果我訪問一個定位,我很可能很快再次訪問它)和空間局部性(如果我訪問一個定位,我很可能很快訪問附近的位置)。緩存利用這些屬性來降低訪問內存的平均成本。
緩存是一個小的片上內存,接近于處理器,存儲最近使用的位置(及其近鄰)內容的副本,以便在隨后的訪問中可以快速獲取。借助緩存,上述示例的執行將稍微超過 100ns:
a = mem[0] # 100ns delay, copies mem[0:15] into cache b = mem[1] # mem[1] is in the cache
從 Spectre 和 Meltdown 的角度來看,最重要的一點是你可以對內存訪問的時間進行計時,你可以知道訪問的地址是在緩存之中(短時)或者不在(長時)。
什么是邊信道?
來自維基百科:
「邊信道攻擊是基于從密碼系統的物理實現獲得的信息的任何攻擊,而不是算法中的蠻力或理論弱點(相較于密碼分析學)。例如,定時信息、功耗、電磁泄漏甚至聲音都可以提供額外的信息源,這些信息可被用來破解系統。」
Spectre 和 Meltdown 屬于邊信道攻擊,通過定時來觀察緩存中是否有另一個可訪問的位置,以推斷內存位置的內容,這些內容通常不應該被訪問。
把它放在一起:
現在讓我們看看如何結合推測和緩存以允許類似 Meltdown 的攻擊。考慮下面這個示例,它是一個有時讀取所有非法(內核)地址的用戶程序,并導致錯誤(崩潰):
t = a+b u = t+c v = u+d if v: w = kern_mem[address] # if we get here, fault x = w&0x100 y = user_mem[x]
現在,假設我們可以訓練分支預測器,使其相信 v 很可能是非零的,那么我們的無序雙向超標量處理器就會混洗程序,像這樣:
t, w_ = a+b, kern_mem[address] u, x_ = t+c, w_&0x100 v, y_ = u+d, user_mem[x_] if v: # fault w, x, y = w_, x_, y_ # we never get here
即使處理器總是推測性地讀取內核地址,它必須推遲產生的錯誤,直到知道 v 是非零。從表面上看,這是安全的,因為:
v 是零,所以非法讀取的結果不會被提交給 w
v 是非零,但在讀取結果被提交給 w 之前發生了錯誤
然而,假設我們在執行代碼之前刷新緩存,并排列 a、b、c、d 以使 v 實際上為零?,F在第三個循環中的推測性讀取為:
v, y_ = u+d, user_mem[x_]
其將依賴非法讀取結果的第八位獲取用戶地址 0x000 或 0x100,并把地址及其近鄰加載進緩存。由于 v 是零,推測性指令的結果將被擯棄,執行將繼續。如果我們隨后訪問其中一個地址,就可以決定哪個地址在緩存之中。恭喜:你剛剛從內核地址空間讀取了一個位!
真正的 Meltdown 實際上要比這更復雜(特別是,為了避免錯誤訓練分支預測器,作者無條件地優先執行非法讀取,并處理產生的異常),但原理是相同的。Spectre 使用相似方法來顛覆軟件陣列邊界檢查。
結論
現代處理器竭盡全力保持抽象,從而成為直接訪問內存的有序標量機器,而事實上,使用包括緩存、指令重排序和推測在內的大量技術來提供比簡單處理器更高的性能有望成為現實。Meltdown 和 Spectre 就是當我們在抽象的語境中推理安全性,然后在抽象與現實之間遇到細微差別時會發生的事情的實例。
樹莓派使用的 ARM1176、Cortex-A7 和 Cortex-A53 內核中推測的缺失使我們免于此類攻擊。
-
處理器
+關注
關注
68文章
19159瀏覽量
229115 -
內核
+關注
關注
3文章
1362瀏覽量
40228 -
漏洞
+關注
關注
0文章
204瀏覽量
15358
原文標題:處理器高危漏洞無人幸免?樹莓派:我們不受影響
文章出處:【微信號:mcuworld,微信公眾號:嵌入式資訊精選】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論