做嵌入式系統(tǒng)軟件開(kāi)發(fā),經(jīng)常在代碼中看到各種各樣的對(duì)齊,很多時(shí)候我們都是知其然不知其所以然,知道要做好各種對(duì)齊,但是不明白為什么要對(duì)齊,不對(duì)齊會(huì)有哪些后果,這篇文章大概總結(jié)了內(nèi)存對(duì)齊的理由。
CPU體系結(jié)構(gòu)和MMU的要求
目前有一些RISC指令集的CPU不支持非對(duì)齊的內(nèi)存變量訪問(wèn)操作,比如 MIPS/PowerPC/某些DSP等等,如果發(fā)生非對(duì)齊的內(nèi)存訪問(wèn),會(huì)產(chǎn)生unaligned exception 異常。
ARM指令集是從ARMv6(ARM11)開(kāi)始支持非對(duì)齊內(nèi)存訪問(wèn)的,以前老一點(diǎn)的ARM9的CPU也是不支持非對(duì)齊訪問(wèn)的。ARM指令集支持的部分特性迭代如下:
盡管現(xiàn)代的ARMv7 ARMv8 指令集的Cortex-AXX系列CPU都支持非對(duì)齊內(nèi)存訪問(wèn),但是考慮到如下圖所示現(xiàn)代SOC芯片里面多種異構(gòu)CPU協(xié)調(diào)工作的情況,主CPU用于跑Linux/Android操作系統(tǒng)的ARM64可以支持非對(duì)齊內(nèi)存訪問(wèn),但是SOC里面還有其它不知道體系結(jié)構(gòu)和版本的協(xié)CPU(可能是MIPS, ARM7,Cortex-R/M系列, 甚至51單片機(jī)核),這些協(xié)CPU都和主ARM64主CPU共享物理內(nèi)存的不同地址段,并且有自己的固件程序在內(nèi)存上運(yùn)行,所以在劃分地址空間的時(shí)候還是要注意內(nèi)存對(duì)齊的問(wèn)題,尤其是考慮到這些協(xié)CPU可能不支持非對(duì)齊訪問(wèn),同樣在編寫(xiě)協(xié)CPU固件程序的時(shí)候,也要清晰認(rèn)識(shí)到該CPU是否支持非對(duì)齊內(nèi)存訪問(wèn)。
image.png
同樣在ARM的MMU虛擬地址管理中,也有內(nèi)存地址對(duì)齊的要求,下圖是ARM的MMU的工作原理和多級(jí)頁(yè)表(Translation Tables)的索引關(guān)系圖
ARM體系架構(gòu)的MMU要求
arm 32位體系結(jié)構(gòu)要求L1第一級(jí)頁(yè)表基地址(The L1 Translation Table Base Addr)對(duì)齊到16KB的地址邊界,L2第二級(jí)頁(yè)表地址(The L2 Translation Table Add)對(duì)齊到1KB的地址邊界。
ARM 64位體系結(jié)構(gòu)要求虛擬地址的第21-28位VA[28:21]對(duì)齊到64 KB granule, 第16到20位VA[20:16]對(duì)齊到4 KB granule。
ARM 的Memory ordering特性中的不同Memory types對(duì)非對(duì)齊內(nèi)存訪問(wèn)的支持的要求是不同的。下圖是ARM Memory ordering特性中三種不同的Memory types訪問(wèn)規(guī)則
只有Normal Memory是支持非對(duì)齊內(nèi)存訪問(wèn)的
Strongly-ordered 和 Device Memory不支持非對(duì)齊內(nèi)存訪問(wèn)
對(duì)原子操作的影響
盡管現(xiàn)代的ARMv7 ARMv8 指令集的ARM CPU支持非對(duì)齊內(nèi)存訪問(wèn),但是非對(duì)齊內(nèi)存訪問(wèn)是無(wú)法保證操作的原子性。下圖分別是一個(gè)變量在內(nèi)存對(duì)齊和非對(duì)齊的時(shí)候的內(nèi)存布局:
內(nèi)存對(duì)齊的變量訪問(wèn),使用單個(gè)通用的CPU寄存器暫存,一個(gè)內(nèi)存對(duì)齊的變量的讀寫(xiě)操作能保證是單次原子操作.
非對(duì)齊的變量的內(nèi)存訪問(wèn)是非原子操作,他們通常情況下訪問(wèn)一個(gè)非對(duì)齊的內(nèi)存中的變量需要2次分別的對(duì)內(nèi)存進(jìn)行訪問(wèn),因而不能保證原子性,一旦發(fā)生2次分別內(nèi)存訪問(wèn),2次分別的訪問(wèn)中間就有可能被異步事件打斷,造成變量改變,因而不能保證原子性。
ARM NEON的要求
現(xiàn)代ARM CPU一般都有一個(gè)NEON的協(xié)處理器,一般用在浮點(diǎn)計(jì)算中用來(lái)做SIMD并行矢量加速計(jì)算。下圖是NEON SIMD并行矢量計(jì)算的基本原理圖:
NEON本身是支持非對(duì)齊內(nèi)存訪問(wèn)的
但是NEON訪問(wèn)非對(duì)齊的內(nèi)存一般會(huì)有2個(gè)指令周期的時(shí)間penalty
通常情況下,為了靈活應(yīng)用NEON的并行計(jì)算特性,在做SIMD并行矢量加速運(yùn)算時(shí),我們要根據(jù)NEON寄存器的Lane的bits數(shù)對(duì)齊相應(yīng)的變量。如果是配置成8-bits的計(jì)算,就做8-bits對(duì)齊,如果是16-bits計(jì)算,就做16-bits對(duì)齊,以此類(lèi)推,NEON的并行矢量計(jì)算的lane根據(jù)spec手冊(cè),有各種靈活配置的方法。
對(duì)性能perf的影響
通常而言,盡管現(xiàn)代的ARM CPU已經(jīng)支持非對(duì)齊內(nèi)存的訪問(wèn),但是ARM訪問(wèn)非對(duì)齊的內(nèi)存地址還是會(huì)造成明顯的性能下降。因?yàn)樵L問(wèn)一個(gè)非對(duì)齊的內(nèi)存,需要增加多次load/store內(nèi)存變量次數(shù),進(jìn)而增加了程序運(yùn)行的指令周期
才有perf工具進(jìn)行性能分析,能看到非對(duì)齊內(nèi)存訪問(wèn)的性能下降,在perf工具中有一個(gè)alignment-faults的事件,可以觀察程序訪問(wèn)非對(duì)齊內(nèi)存的事件統(tǒng)計(jì)
cache line 對(duì)齊
除了通常所講的根據(jù)CPU訪問(wèn)內(nèi)存的地址位數(shù)的內(nèi)存對(duì)齊之外,在程序優(yōu)化的時(shí)候,還要考慮到cache存在的情況,根據(jù)cache line的長(zhǎng)度來(lái)對(duì)齊你的訪問(wèn)變量。
cache和cache line的結(jié)構(gòu)原理圖如下(其中圖2從該文章引用自: cenalulu),cache line是cache和內(nèi)存進(jìn)行數(shù)據(jù)傳輸?shù)淖钚挝唬话鉩ache都是以cache line的長(zhǎng)度一次讀寫(xiě)內(nèi)存中的映射地址。
在ARM 系列的CPU中,不同型號(hào)的ARM CPU的cache line長(zhǎng)度是不一樣的,因此同樣是基于ARM平臺(tái)的CPU,從A平臺(tái)移植優(yōu)化過(guò)的程序到B平臺(tái)時(shí),一定要注意不同CPU的cache line大小是否一致,是否要重新調(diào)整cache line對(duì)齊優(yōu)化。下圖是ARMv7幾款公版CPU的cache line的資料手冊(cè),ARMv8 64位的公版CPU(A53, A57, A72, A73)目前的cache line大小都是64 bytes, 但是各家公司基于公版ARM的定制版CPU的cache line大小可能有差異,一定要參考相關(guān)TRM手冊(cè)進(jìn)行調(diào)整、對(duì)齊、優(yōu)化.
下圖是一個(gè)例子關(guān)于未做cache line對(duì)齊的情況下,進(jìn)行內(nèi)存讀寫(xiě)性能抖動(dòng)的例子,引用自cenalulu.測(cè)試代碼如下程序的大意,對(duì)不同大小的數(shù)組進(jìn)行1億次讀寫(xiě)操作,統(tǒng)計(jì)不同數(shù)組size時(shí)的讀寫(xiě)時(shí)間。從測(cè)試的結(jié)果可以看出,當(dāng)數(shù)組大小小于cache line size時(shí),讀寫(xiě)時(shí)間基本變化不大,當(dāng)數(shù)組大小剛剛超過(guò)cache line size的時(shí)候,讀寫(xiě)時(shí)間發(fā)生了劇烈的抖動(dòng)。這是因?yàn)槌^(guò)cache line 大小的數(shù)組元素可能沒(méi)有提前預(yù)讀到cache line中,在訪問(wèn)完cache line中的數(shù)組元素之后,要重新從內(nèi)存讀取數(shù)據(jù),刷新cache line,因而產(chǎn)生了性能抖動(dòng)。通過(guò)這個(gè)例子告訴我們,充分利用系統(tǒng)cache特性,根據(jù)cache line對(duì)齊你的數(shù)據(jù),保證程序訪問(wèn)的局部數(shù)據(jù)都在一個(gè)cache line中可以提升系統(tǒng)性能。
#include"stdio.h" #include#include longtimediff(clock_tt1,clock_tt2){ longelapsed; elapsed=((double)t2-t1)/CLOCKS_PER_SEC*1000; returnelapsed; } intmain(intargc,char*argv[]) #******* { intarray_size=atoi(argv[1]); intrepeat_times=1000000000; longarray[array_size]; for(inti=0;i image.jpg
沒(méi)有對(duì)齊到同一個(gè)cache line中的變量,在多核SMP系統(tǒng)中,cross cache line操作是非原子操作,存在篡改的風(fēng)險(xiǎn)。該例子引用自kongfy)測(cè)試代碼如下,程序大意是,系統(tǒng)cpu的cache line是64字節(jié),一個(gè)68字節(jié)的結(jié)構(gòu)體struct data, 其中前面填充60字節(jié)的pad[15]數(shù)組,最后一個(gè)8字節(jié)的變量v, 這樣結(jié)構(gòu)體大小超過(guò)了64字節(jié),最后一個(gè)變量v的前后部分可定不在同一個(gè)cache line中,整個(gè)結(jié)構(gòu)體沒(méi)法根據(jù)cache line對(duì)齊。全局變量value.v初始值是0, 程序開(kāi)多線程,對(duì)全局變量value.v進(jìn)行多次~位取反操作,直覺(jué)上最后結(jié)果value.v的位結(jié)果不是全0就是全1,但是最后value.v的位結(jié)果居然是一半1一半0, 這就是由于cross cache line 操作是非原子性的,導(dǎo)致一個(gè)線程對(duì)value.v前半部分取反的時(shí)候,另外的線程對(duì)后半部分在另一個(gè)cache line同時(shí)取反,然后前一個(gè)線程再對(duì)另一個(gè)cache line的value.v后半部分取反,導(dǎo)致和直覺(jué)不一致。
#include#include #include #include usingnamespacestd; staticconstint64_tMAX_THREAD_NUM=128; staticint64_tn=0; staticint64_tloop_count=0; #pragmapack(1) structdata { int32_tpad[15]; int64_tv; }; #pragmapack() staticdatavalue__attribute__((aligned(64))); staticint64_tcounter[MAX_THREAD_NUM]; voidworker(int*cnt) { for(int64_ti=0;i ",argv[0]); exit(1); } /*Parseargument*/ n=min(atol(argv[1]),MAX_THREAD_NUM); loop_count=atol(argv[2]);/*Don'tbotherwithformatchecking*/ /*Startthethreads*/ for(int64_ti=0L;i
-
ARM
+關(guān)注
關(guān)注
134文章
9045瀏覽量
366800 -
嵌入式系統(tǒng)
+關(guān)注
關(guān)注
41文章
3564瀏覽量
129224 -
內(nèi)存
+關(guān)注
關(guān)注
8文章
2998瀏覽量
73881
原文標(biāo)題:【內(nèi)存管理】ARM嵌入式系統(tǒng)為什么要做內(nèi)存對(duì)齊
文章出處:【微信號(hào):嵌入式與Linux那些事,微信公眾號(hào):嵌入式與Linux那些事】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論