程序的鏈接和裝入存在著多種方法,而如今最為流行的當屬動態(tài)鏈接、動態(tài)裝入方法。本文首先回顧了鏈接器和裝入器的基本工作原理及這一技術(shù)的發(fā)展歷史,然后通過實際的例子剖析了Linux系統(tǒng)下動態(tài)鏈接的實現(xiàn)。了解底層關(guān)鍵技術(shù)的實現(xiàn)細節(jié)對系統(tǒng)分析和設(shè)計人員無疑是必須的,尤其當我們在面對實時系統(tǒng),需要對程序執(zhí)行時的時空效率有著精確的度量和把握時,這種知識更顯重要。
鏈接器和裝入器的基本工作原理
一個程序要想在內(nèi)存中運行,除了編譯之外還要經(jīng)過鏈接和裝入這兩個步驟。從程序員的角度來看,引入這兩個步驟帶來的好處就是可以直接在程序中使用printf和errno這種有意義的函數(shù)名和變量名,而不用明確指明printf和errno在標準C庫中的地址。當然,為了將程序員從早期直接使用地址編程的夢魘中解救出來,編譯器和匯編器在這當中做出了革命性的貢獻。編譯器和匯編器的出現(xiàn)使得程序員可以在程序中使用更具意義的符號來為函數(shù)和變量命名,這樣使得程序在正確性和可讀性等方面都得到了極大的提高。但是隨著C語言這種支持分別編譯的程序設(shè)計語言的流行,一個完整的程序往往被分割為若干個獨立的部分并行開發(fā),而各個模塊間通過函數(shù)接口或全局變量進行通訊。這就帶來了一個問題,編譯器只能在一個模塊內(nèi)部完成符號名到地址的轉(zhuǎn)換工作,不同模塊間的符號解析由誰來做呢?比如前面所舉的例子,調(diào)用printf的用戶程序和實現(xiàn)了printf的標準C庫顯然就是兩個不同的模塊。實際上,這個工作是由鏈接器來完成的。
為了解決不同模塊間的鏈接問題,鏈接器主要有兩個工作要做――符號解析和重定位:
符號解析:當一個模塊使用了在該模塊中沒有定義過的函數(shù)或全局變量時,編譯器生成的符號表會標記出所有這樣的函數(shù)或全局變量,而鏈接器的責任就是要到別的模塊中去查找它們的定義,如果沒有找到合適的定義或者找到的合適的定義不唯一,符號解析都無法正常完成。
重定位:編譯器在編譯生成目標文件時,通常都使用從零開始的相對地址。然而,在鏈接過程中,鏈接器將從一個指定的地址開始,根據(jù)輸入的目標文件的順序以段為單位將它們一個接一個的拼裝起來。除了目標文件的拼裝之外,在重定位的過程中還完成了兩個任務(wù):一是生成最終的符號表;二是對代碼段中的某些位置進行修改,所有需要修改的位置都由編譯器生成的重定位表指出。
舉個簡單的例子,上面的概念對讀者來說就一目了然了。假如我們有一個程序由兩部分構(gòu)成,m.c中的main函數(shù)調(diào)用f.c中實現(xiàn)的函數(shù)sum:
/* m.c */int i = 1;int j = 2;extern int sum();void main(){ int s; s = sum(i, j);/* f.c */int sum(int i, int j){ return i + j;}
在Linux用gcc分別將兩段源程序編譯成目標文件:
$ gcc -c m.c$ gcc -c f.c
我們通過objdump來看看在編譯過程中生成的符號表和重定位表:
$ objdump -x m.o……SYMBOL TABLE:……00000000 gO .data 00000004 i00000004 gO .data 00000004 j00000000 gF .text 00000021 main00000000 *UND* 00000000 sumRELOCATION RECORDS FOR [.text]:OFFSET TYPE VALUE00000007 R_386_32 j0000000d R_386_32 i00000013 R_386_PC32 sum
首先,我們注意到符號表里面的sum被標記為UND(undefined),也就是在m.o中沒有定義,所以將來要通過ld(Linux下的鏈接器)的符號解析功能到別的模塊中去查找是否存在函數(shù)sum的定義。另外,在重定位表中有三條記錄,指出了在重定位過程中代碼段中三處需要修改的位置,分別位于7、d和13。下面以一種更加直觀的方式來看一下這三個位置:
$ objdump -dx m.oDisassembly of section .text:00000000 以sum為例,對函數(shù)sum的調(diào)用是通過call指令實現(xiàn)的,使用IP相對尋址方式。可以看到,在目標文件m.o中,call指令位于從零開始的相對地址12的位置,這里存放的e8是call的操作碼,而從13開始的4個字節(jié)存放著sum相對call的下一條指令add的偏移。顯然,在鏈接之前這個偏移量是不知道的,所以將來要來修改13這里的代碼。那現(xiàn)在這里為什么存放著0xfffffffc(注意Intel的CPU使用little endian的編址方式)呢?這大概是出于安全的考慮,因為0xfffffffc正是-4的補碼表示(讀者可以在gdb中使用p /x -4查看),而call指令本身占用了5個字節(jié),因此無論如何call指令中的偏移量不可能是-4。我們再看看重定位之后call指令中的這個偏移量被修改成了什么: $ gcc m.o f.o$ objdump -dj .text a.out | lessDisassembly of section .text:……080482c4 可以看到經(jīng)過重定位之后,call指令中的偏移量修改成0x0000000d了,簡單的計算告訴我們:0x080482e8-0x80482db=0xd。這樣,經(jīng)過重定位之后最終的可執(zhí)行程序就生成了。 可執(zhí)行程序生成后,下一步就是將其裝入內(nèi)存運行。Linux下的編譯器(C語言)是cc1,匯編器是as,鏈接器是ld,但是并沒有一個實際的程序?qū)?yīng)裝入器這個概念。實際上,將可執(zhí)行程序裝入內(nèi)存運行的功能是由execve(2)這一系統(tǒng)調(diào)用實現(xiàn)的。簡單來講,程序的裝入主要包含以下幾個步驟: ? 鏈接和裝入技術(shù)的發(fā)展史 一個程序要想裝入內(nèi)存運行必然要先經(jīng)過編譯、鏈接和裝入這三個階段,雖然是這樣一個大家聽起來耳熟能詳?shù)母拍睿诓僮飨到y(tǒng)發(fā)展的過程中卻已經(jīng)經(jīng)歷了多次重大變革。簡單來講,可以將其劃分為以下三個階段: 1. 靜態(tài)鏈接、靜態(tài)裝入 這種方法最早被采用,其特點是簡單,不需要操作系統(tǒng)提供任何額外的支持。像C這樣的編程語言從很早開始就已經(jīng)支持分別編譯了,程序的不同模塊可以并行開發(fā),然后獨立編譯為相應(yīng)的目標文件。在得到了所有的目標文件后,靜態(tài)鏈接、靜態(tài)裝入的做法是將所有目標文件鏈接成一個可執(zhí)行映象,隨后在創(chuàng)建進程時將該可執(zhí)行映象一次全部裝入內(nèi)存。舉個簡單的例子,假設(shè)我們開發(fā)了兩個程序Prog1和Prog2,Prog1由main1.c、utilities.c以及errhdl1.c三部分組成,分別對應(yīng)程序的主框架、一些公用的輔助函數(shù)(其作用相當于庫)以及錯誤處理部分,這三部分代碼編譯后分別得到各自對應(yīng)的目標文件main1.o、utilities.o以及errhdl1.o。同樣,Prog2由main2.c、utilities.c以及errhdl2.c三部分組成,三部分代碼編譯后分別得到各自對應(yīng)的目標文件main2.o、utilities.o以及errhdl2.o。值得注意的是,這里Prog1和Prog2使用了相同的公用輔助函數(shù)utilities.o。當我們采用靜態(tài)鏈接、靜態(tài)裝入的方法,同時運行這兩個程序時內(nèi)存和硬盤的使用情況如圖1所示: ? 可以看到,首先就硬盤的使用來講,雖然兩個程序共享使用了utilities,但這并沒有在硬盤保存的可執(zhí)行程序映象上體現(xiàn)出來。相反,utilities.o被鏈接進了每一個用到它的程序的可執(zhí)行映象。內(nèi)存的使用也是如此,操作系統(tǒng)在創(chuàng)建進程時將程序的可執(zhí)行映象一次全部裝入內(nèi)存,之后進程才能開始運行。如前所述,采用這種方法使得操作系統(tǒng)的實現(xiàn)變得非常簡單,但其缺點也是顯而易見的。首先,既然兩個程序使用的是相同的utilities.o,那么我們只要在硬盤上保存utilities.o的一份拷貝應(yīng)該就足夠了;另外,假如程序在運行過程中沒有出現(xiàn)任何錯誤,那么錯誤處理部分的代碼就不應(yīng)該被裝入內(nèi)存。因此靜態(tài)鏈接、靜態(tài)裝入的方法不但浪費了硬盤空間,同時也浪費了內(nèi)存空間。由于早期系統(tǒng)的內(nèi)存資源十分寶貴,所以后者對早期的系統(tǒng)來講更加致命。 2. 靜態(tài)鏈接、動態(tài)裝入 既然采用靜態(tài)鏈接、靜態(tài)裝入的方法弊大于利,我們來看看人們是如何解決這一問題的。由于內(nèi)存緊張的問題在早期的系統(tǒng)中顯得更加突出,因此人們首先想到的是要解決內(nèi)存使用效率不高這一問題,于是便提出了動態(tài)裝入的思想。其想法是非常簡單的,即一個函數(shù)只有當它被調(diào)用時,其所在的模塊才會被裝入內(nèi)存。所有的模塊都以一種可重定位的裝入格式存放在磁盤上。首先,主程序被裝入內(nèi)存并開始運行。當一個模塊需要調(diào)用另一個模塊中的函數(shù)時,首先要檢查含有被調(diào)用函數(shù)的模塊是否已裝入內(nèi)存。如果該模塊尚未被裝入內(nèi)存,那么將由負責重定位的鏈接裝入器將該模塊裝入內(nèi)存,同時更新此程序的地址表以反應(yīng)這一變化。之后,控制便轉(zhuǎn)移到了新裝入的模塊中被調(diào)用的函數(shù)那里。 動態(tài)裝入的優(yōu)點在于永遠不會裝入一個使用不到的模塊。如果程序中存在著大量像出錯處理函數(shù)這種用于處理小概率事件的代碼,使用這種方法無疑是卓有成效的。在這種情況下,即使整個程序可能很大,但是實際用到(因此被裝入到內(nèi)存中)的部分實際上可能非常小。 仍然以上面提到的兩個程序Prog1和Prog2為例,假如Prog1運行過程中出現(xiàn)了錯誤而Prog2在運行過程中沒有出現(xiàn)任何錯誤。當我們采用靜態(tài)鏈接、動態(tài)裝入的方法,同時運行這兩個程序時內(nèi)存和硬盤的使用情況如圖2所示: ? 圖 2采用靜態(tài)鏈接、動態(tài)裝入方法,同時運行Prog1和Prog2時內(nèi)存和硬盤的使用情況 可以看到,當程序中存在著大量像錯誤處理這樣使用概率很小的模塊時,采用靜態(tài)鏈接、動態(tài)裝入的方法在內(nèi)存的使用效率上就體現(xiàn)出了相當大的優(yōu)勢。到此為止,人們已經(jīng)向理想的目標邁進了一部,但是問題還沒有完全解決――內(nèi)存的使用效率提高了,硬盤呢? 3. 動態(tài)鏈接、動態(tài)裝入 采用靜態(tài)鏈接、動態(tài)裝入的方法后看似只剩下硬盤空間使用效率不高的問題了,實際上內(nèi)存使用效率不高的問題仍然沒有完全解決。圖2中,既然兩個程序用到的是相同的utilities.o,那么理想的情況是系統(tǒng)中只保存一份utilities.o的拷貝,無論是在內(nèi)存中還是在硬盤上,于是人們想到了動態(tài)鏈接。 在使用動態(tài)鏈接時,需要在程序映象中每個調(diào)用庫函數(shù)的地方打一個樁(stub)。stub是一小段代碼,用于定位已裝入內(nèi)存的相應(yīng)的庫;如果所需的庫還不在內(nèi)存中,stub將指出如何將該函數(shù)所在的庫裝入內(nèi)存。 當執(zhí)行到這樣一個stub時,首先檢查所需的函數(shù)是否已位于內(nèi)存中。如果所需函數(shù)尚不在內(nèi)存中,則首先需要將其裝入。不論怎樣,stub最終將被調(diào)用函數(shù)的地址替換掉。這樣,在下次運行同一個代碼段時,同樣的庫函數(shù)就能直接得以運行,從而省掉了動態(tài)鏈接的額外開銷。由此,用到同一個庫的所有進程在運行時使用的都是這個庫的同一份拷貝。 下面我們就來看看上面提到的兩個程序Prog1和Prog2在采用動態(tài)鏈接、動態(tài)裝入的方法,同時運行這兩個程序時內(nèi)存和硬盤的使用情況(見圖3)。仍然假設(shè)Prog1運行過程中出現(xiàn)了錯誤而Prog2在運行過程中沒有出現(xiàn)任何錯誤。 ? 圖 3采用動態(tài)鏈接、動態(tài)裝入方法,同時運行Prog1和Prog2時內(nèi)存和硬盤的使用情況 圖中,無論是硬盤還是內(nèi)存中都只存在一份utilities.o的拷貝。內(nèi)存中,兩個進程通過將地址映射到相同的utilities.o實現(xiàn)對其的共享。動態(tài)鏈接的這一特性對于庫的升級(比如錯誤的修正)是至關(guān)重要的。當一個庫升級到一個新版本時,所有用到這個庫的程序?qū)⒆詣邮褂眯碌陌姹尽H绻皇褂脛討B(tài)鏈接技術(shù),那么所有這些程序都需要被重新鏈接才能得以訪問新版的庫。為了避免程序意外使用到一些不兼容的新版的庫,通常在程序和庫中都包含各自的版本信息。內(nèi)存中可能會同時存在著一個庫的幾個版本,但是每個程序可以通過版本信息來決定它到底應(yīng)該使用哪一個。如果對庫只做了微小的改動,庫的版本號將保持不變;如果改動較大,則相應(yīng)遞增版本號。因此,如果新版庫中含有與早期不兼容的改動,只有那些使用新版庫進行編譯的程序才會受到影響,而在新版庫安裝之前進行過鏈接的程序?qū)⒗^續(xù)使用以前的庫。這樣的系統(tǒng)被稱作共享庫系統(tǒng)。 ? Linux下動態(tài)鏈接的實現(xiàn) 如今我們在Linux下編程用到的庫(像libc、QT等等)大多都同時提供了動態(tài)鏈接庫和靜態(tài)鏈接庫兩個版本的庫,而gcc在編譯鏈接時如果不加-static選項則默認使用系統(tǒng)中的動態(tài)鏈接庫。對于動態(tài)鏈接庫的原理大多數(shù)的書本上只是進行了泛泛的介紹,在此筆者將通過在實際系統(tǒng)中反匯編出的代碼向讀者展示這一技術(shù)在Linux下的實現(xiàn)。 下面是個最簡單的C程序hello.c: ? #include ? 在Linux下我們可以使用gcc將其編譯成可執(zhí)行文件a.out: ? $ gcc hello.c ? 程序里用到了printf,它位于標準C庫中,如果在用gcc編譯時不加-static的話,默認是使用libc.so,也就是動態(tài)鏈接的標準C庫。在gdb中可以看到編譯后printf對應(yīng)如下代碼 : ? $ gdb -q a.out(gdb) disassemble printfDump of assembler code for function printf:0x8048310 ? 這也就是通常在書本上以及前面提到的打樁(stub)過程,顯然這并不是真正的printf函數(shù)。這段stub代碼的作用在于到libc.so中去查找真正的printf。 ? (gdb) x /w 0x80495a40x80495a4 <_GLOBAL_OFFSET_TABLE_+24>: 0x08048316 ? 可以看到0x80495a4處存放的0x08048316正是pushl $0x18這條指令的地址,所以第一條jmp指令沒有起到任何作用,其作用就像空操作指令nop一樣。當然這是在我們第一次調(diào)用printf時,其真正的作用是在今后再次調(diào)用printf時體現(xiàn)出來的。第二條jmp指令的目的地址是plt,也就是procedure linkage table,其內(nèi)容可以通過objdump命令查看,我們感興趣的就是下面這兩條對程序的控制流有影響的指令: ? $ objdump -dx a.out……080482d0 >.plt>: 80482d0: ff 35 90 95 04 08 pushl 0x8049590 80482d6: ff 25 94 95 04 08 jmp *0x8049594…… ? 第一條push指令將got(global offset table)中與printf相關(guān)的表項地址壓入堆棧,之后jmp到內(nèi)存單元0x8049594中所存放的地址0x4000a960處。這里需要注意的一點是,在查看got之前必須先將程序a.out啟動運行,否則通過gdb中的x命令在0x8049594處看到的結(jié)果是不正確的。 ? (gdb) b mainBreakpoint 1 at 0x8048406(gdb) rStarting program: a.outBreakpoint 1, 0x08048406 in main ()(gdb) x /w 0x80495940x8049594 <_GLOBAL_OFFSET_TABLE_+8>: 0x4000a960(gdb) disassemble 0x4000a960Dump of assembler code for function _dl_runtime_resolve:0x4000a960 <_dl_runtime_resolve>: pushl %eax0x4000a961 <_dl_runtime_resolve+1>: pushl %ecx0x4000a962 <_dl_runtime_resolve+2>: pushl %edx0x4000a963 <_dl_runtime_resolve+3>: movl 0x10(%esp,1),%edx0x4000a967 <_dl_runtime_resolve+7>: movl 0xc(%esp,1),%eax0x4000a96b <_dl_runtime_resolve+11>: call 0x4000a740 ? 前面三條push指令執(zhí)行之后堆棧里面的內(nèi)容如下: ? 下面將0x18存入edx,0x8049590存入eax,有了這兩個參數(shù),fixup就可以找到printf在libc.so中的地址。當fixup返回時,該地址已經(jīng)保存在了eax中。xchg指令執(zhí)行完之后堆棧中的內(nèi)容如下: ? 最妙的要數(shù)接下來的ret指令的用法,這里ret實際上被當成了call來使用。ret $0x8之后控制便轉(zhuǎn)移到了真正的printf函數(shù)那里,并且清掉了堆棧上的0x18和0x8049584這兩個已經(jīng)沒用的參數(shù),這時堆棧便成了下面的樣子: ? 而這正是我們所期望的結(jié)果。應(yīng)該說這里ret的用法與Linux內(nèi)核啟動后通過iret指令實現(xiàn)由內(nèi)核態(tài)切換到用戶態(tài)的做法有著異曲同工之妙。很多人都聽說過中斷指令int可以實現(xiàn)用戶態(tài)到內(nèi)核態(tài)這種優(yōu)先級由低到高的切換,在接受完系統(tǒng)服務(wù)后iret指令負責將優(yōu)先級重新降至用戶態(tài)的優(yōu)先級。然而系統(tǒng)啟動時首先是處于內(nèi)核態(tài)高優(yōu)先級的,Intel i386并沒有單獨提供一條特殊的指令用于在系統(tǒng)啟動完成后降低優(yōu)先級以運行用戶程序。其實這個問題很簡單,只要反用iret就可以了,就像這里將ret當作call使用一樣。另外,fixup函數(shù)執(zhí)行完還有一個副作用,就是在got中與printf相關(guān)的表項(也就是地址為0x80495a4的內(nèi)存單元)中填上查找到的printf函數(shù)在動態(tài)鏈接庫中的地址。這樣當我們再次調(diào)用printf函數(shù)時,其地址就可以直接從got中得到,從而省去了通過fixup查找的過程。也就是說got在這里起到了cache的作用。
評論
查看更多