****虛擬機(jī)概覽
所謂虛擬機(jī)保護(hù)技術(shù),是指將代碼翻譯為機(jī)器和人都無(wú)法識(shí)別的一串偽代碼字節(jié)流;在具體執(zhí)行時(shí)再對(duì)這些偽代碼進(jìn)行一一翻譯解釋?zhuān)鸩竭€原為原始代碼并執(zhí)行。
這段用于翻譯偽代碼并負(fù)責(zé)具體執(zhí)行的子程序就叫作虛擬機(jī)VM(好似一個(gè)抽象的CPU)。它以一個(gè)函數(shù)的形式存在,函數(shù)的參數(shù)就是字節(jié)碼的內(nèi)存地址。
將虛擬機(jī)應(yīng)用到商業(yè)中的保護(hù)殼現(xiàn)有三款:Vmprotect,themida和 execrypt。
**** 虛擬機(jī)架構(gòu)
我們知道,代碼中的指令多種多樣,組織形式也千變?nèi)f化;虛擬機(jī)不可能針對(duì)每一種具體情況都進(jìn)行翻譯處理。必須對(duì)所有可能遇到的指令先進(jìn)行抽象歸類(lèi),然后分解為若干簡(jiǎn)單的小指令,再交由各個(gè)專(zhuān)門(mén)的子程序(handler)去處理。
學(xué)過(guò)編譯原理的同學(xué)應(yīng)該都知道三元式代碼吧,也叫做3地址代碼(three adress code)。即不論多么復(fù)雜的賦值公式,都可以分解為數(shù)個(gè)3地址代碼式序列。(什么是3地址代碼,1段3地址代碼只完成1次運(yùn)算,譬如1次二目運(yùn)算、1次比較,或者1次分支跳轉(zhuǎn)運(yùn)算。)
與此類(lèi)似,不論多么復(fù)雜的指令,都可以分解為一串不可再分割的原子指令序列。
虛擬機(jī)(CPU)的體系架構(gòu)可分為3種,基于堆棧的(Stack based),基于寄存器的(Register based)和3地址機(jī)器。我們只講述基于堆棧的虛擬機(jī)架構(gòu)(Stack based);這種架構(gòu)的虛擬機(jī)需要頻繁操作堆棧,其使用的虛擬寄存器(虛擬的eax、ebx等等)保存在堆棧中;每個(gè)原子指令的handler都需要push、pop。
現(xiàn)在的CPU都有大量的寄存器,堆棧一般只是在函數(shù)傳遞參數(shù)時(shí)使用(譬如PC機(jī)用的x86系列CPU)。但也有一些CPU只操作內(nèi)存,沒(méi)有堆棧,也沒(méi)有寄存器。使用這種CPU的機(jī)器稱(chēng)之為3地址機(jī)器。
基于堆棧的CPU或虛擬機(jī)沒(méi)有臨時(shí)變量、寄存器的概念,所有的東西都放入堆棧。由于指令中不需要指定操作數(shù),所以其指令相對(duì)基于寄存器的要短。也因此相對(duì)簡(jiǎn)單,在嵌入式系統(tǒng)中運(yùn)用較多。用于保護(hù)代碼,我們也選擇這種。
舉例,譬如指令add,基于堆棧的CPU首先從堆棧里Pop兩個(gè)數(shù),然后將兩數(shù)相加,再把和Push到堆棧。Add指令只占用1個(gè)字節(jié)。而基于寄存器的CPU對(duì)應(yīng)指令為 add Reg1,Reg2,需要3個(gè)字節(jié)。請(qǐng)仔細(xì)想象一下沒(méi)有寄存器的CPU,它的指令是怎樣的,該會(huì)是多么簡(jiǎn)潔。當(dāng)然,指令簡(jiǎn)潔帶來(lái)的缺點(diǎn)就是效率低下。
我們這里談的虛擬機(jī)保護(hù)技術(shù),就是把基于寄存器的CPU代碼,改造成基于堆棧的CPU的偽代碼。然后再由基于堆棧的虛擬機(jī)(CPU)對(duì)偽代碼解釋執(zhí)行。
**** 指令系統(tǒng)
關(guān)鍵在于設(shè)計(jì)一個(gè)虛擬的基于堆棧的虛擬機(jī)(CPU)的指令系統(tǒng)。這個(gè)指令系統(tǒng)越簡(jiǎn)潔,復(fù)用性越高越好。
還是以add 指令為例。X86系列CPU的add指令有許多格式,譬如:add reg,imm 、add reg,reg、add reg,mem、add mem,reg等等。而基于堆棧的虛擬機(jī)CPU則沒(méi)有這么多花樣,就一個(gè)單單的add指令,參數(shù)和返回都是在堆棧里。
我們需要為我們的虛擬機(jī)CPU模擬實(shí)現(xiàn)這樣的add命令:
而原有的add命令的參數(shù),我們需要翻譯為 push 命令 。根據(jù)push 的對(duì)象不同,需要不同的實(shí)現(xiàn):
有Push指令了,也得有Pop指令:
基于堆棧的虛擬機(jī)指令系統(tǒng)就是這樣簡(jiǎn)單的:?jiǎn)巫止?jié)的動(dòng)作指令(譬如add、dec),以及各式各樣的push、pop等堆棧操作指令。沒(méi)有復(fù)雜的寄存器與內(nèi)存操作。我們需要把x86的CPU指令翻譯成虛擬機(jī)CPU的指令,譬如:
Call指令相對(duì)麻煩一點(diǎn),因?yàn)镃all的函數(shù)未必是虛擬機(jī)的偽代碼了。所以碰到Call指令,就要退出虛擬機(jī),交由真實(shí)的CPU去處理了。代碼類(lèi)似下面:
其余,要注意標(biāo)志位的處理、不可模擬指令,以及指令的優(yōu)化。還有異常處理,這里就不展開(kāi)了。
VStartVM是虛擬機(jī)的入口,負(fù)責(zé)保存運(yùn)行環(huán)境(各個(gè)寄存器的值)、以及初始化堆棧(虛擬機(jī)使用的變量全部在堆棧中)。
Bytecode是偽代碼;VMDispatcher對(duì)偽代碼逐個(gè)閱讀處理,然后分發(fā)給下面的各個(gè)子程序(Handler)。
加殼程序先把已知的X86指令解釋成了字節(jié)碼,放在PE文件中,然后將原處代碼刪掉,改成類(lèi)似的代碼進(jìn)入虛擬機(jī)執(zhí)行循環(huán)。
VStartVM初始化后,堆棧情形如下:
edi指向VMcontext;esi指向偽代碼的地址;ebp指向真實(shí)堆棧的棧頂; 這三個(gè)寄存器在VM內(nèi)不要再改了。
VMContext是虛擬機(jī)VM使用的虛擬環(huán)境結(jié)構(gòu):
VM之所以使用堆棧保存自己的寄存器結(jié)構(gòu),是考慮到多線(xiàn)程程序的兼容。
大家都知道脫殼時(shí)的堆棧平衡原理吧。同樣的,虛擬機(jī)在執(zhí)行翻譯后的程序代碼時(shí),也不可以隨便變動(dòng)原來(lái)的堆棧地址。還需經(jīng)常檢查在堆棧中的VMcontext結(jié)構(gòu)不被沖掉。
-
機(jī)器
+關(guān)注
關(guān)注
0文章
772瀏覽量
40637 -
代碼
+關(guān)注
關(guān)注
30文章
4671瀏覽量
67771 -
虛擬機(jī)
+關(guān)注
關(guān)注
1文章
888瀏覽量
27815
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論