0 引言
人臉作為圖像與視頻中最重要的視覺圖像之一,在計算機視覺、模式識別、多媒體技術研究中占有很重要的地位。可視化分析和目標識別研究中最具有挑戰性的任務之一就是理解人們如何處理和識別彼此的相貌,并進行相應的計算機建模來最終完成人臉的自動識別。近年來,隨著計算機科學在人機交互領域的快速發展,作為人臉信息處理中的一項關鍵技術,人臉檢測與識別現在已經成為模式識別與計算機視覺領域內一項受到普遍重視。無線視頻監控系統將被監控點實時采集的圖片、視頻文件通過無線網絡及時地傳輸給遠程監控中心,實時動態地報告被監測點的情況,及時發現問題并進行處理。
本文提出了一種有效的無線遠程人臉追蹤系統的解決方案。采用AdaBoost算法進行人臉的檢測,選擇了Haar特征方法,把訓練得出的Haar特征轉換成弱分類器,通過一定的方法將弱分類器進行組合構成強分類器,對分類器進行訓練后應用到圖像中進行人臉區域的檢測,從而得到較準確的人臉信息;采用GPRS技術進行人臉圖像數據的無線傳輸,通過GPRS/CDMA無線窄帶網絡連接Internet互聯網絡,在無線視頻監控終端對視頻信號進行實時采集,無線傳送到遠程服務器;采用Gabor小波進行特征提取,獲得人臉圖像的Gabor特征;采用SVM進行分類,對人臉圖像進行分類識別,得出識別結果,對符合條件的人臉給出警報。本系統可以應用于商場、機場、車站、地鐵站等場所。
1 視頻圖像處理
1.1 去噪處理
圖像在生成和傳輸過程中常受到各種噪聲的干擾和影響,使圖像質量下降。所以在進行圖像分析和處理之前都需要對圖像進行去噪處理。噪聲的模型按照對圖像的影響可以分為加性噪聲模型和乘性噪聲模型兩大類。假設,f(x,y)為原始圖像,g(x,y)為有噪聲的圖像,n(x,y)為噪聲。
加性噪聲模型為:
g(x,y)=f(x,y)+n(x,y) (1)
乘性噪聲模型為:
g(x,y)=f(x,y)[1+n(x,y)] (2)
空域中去噪方法包括:中值濾波、均值濾波等。中值濾波是基于排序統計理論的一種能有效抑制噪聲的非線性處理技術。其核心運算是將模板中的數據進行排序,這樣一個亮點(暗點)的噪聲,就會在排序過程中被排在數據序列的最右側或最左側,因此,最終選擇的數據序列中間位置上的值一般不是噪聲點的值。由此便可以達到抑制噪聲的目的;均值濾波實際上就是用該像素對應的模板中各像素值的均值替代該像素的像素值,均值濾波的方法是,對待處理的當前圖像,選擇一個模板,該模板為其近鄰的若干像素組成,用模板中像素的均值來替代原像素值。
1.2 亮度調整
由于采集圖像時的光照強度和相機自身性能的不同,使得采集到的圖像的亮度有許多不同。而本文的人臉檢測是基于特征的,特征值與圖像的灰度值有很大關系。所以即使圖像對應的特征結構相同,但是由于亮度不同,通常會被分類器認為是不同的圖像。所以無論是在訓練分類器階段還是在檢測階段都需要對圖像進行亮度的調整,需要將不同亮度的圖像調整到同一范圍。常用的亮度調整技術包括:線性動態范圍調整、非線性動態范圍調整、直方圖均衡化等。線性動態范圍調整的方法是其中比較簡單的一種,計算量也比較小。調整的計算公式如下:
1.3 圖像的形狀變換
圖像形狀變換是指用數學建模的方法對圖像形狀發生的變化進行描述的過程。最基本的圖像變換包括圖像的縮小、放大、旋轉等。本文中的訓練階段和檢測階段都需要對圖像進行形狀的變換,比如在建立訓練樣本庫的時候將不同尺寸的圖像歸一化到19×19的尺寸。圖像縮小從物理意義上來說,是將描述圖像的物理尺寸縮小相應的倍數。數字圖像的縮小是通過減少像素個數來實現的,所以就需要根據所期望縮小的尺寸數據,從原圖像中選擇合適的像素點,使圖像縮小之后可以盡量保持原有的特征不丟失。
圖像放大,從物理含義上來講是指圖像縮小的逆運算。但是圖像放大是從小數據量到大數據量的過程,因此需要對許多數據進行估計。由于圖像相連像素之間的相關性很強,所以可以利用這個相關性來實現圖像的放大。比較好的圖像放大的方法是雙線性插值法,該方法不是將原圖像的像素復制到子快中,而是只填寫在子快的某一個像素的位置上。采用雙線性插值的方法可以平緩像素塊之間的過度,有效的抑制了馬賽克現象的產生。本文采用了雙線性插值的方法。
基于AdaBoost算法人臉檢測#e# 2 基于AdaBoost算法人臉檢測
2.1 AdaBoost人臉檢測算法
AdaBcoost是一種基于分類器的算法,其基本思想是利用大量的分類能力較弱的弱分類器通過一定方法疊加起來形成分類能力很強的強分類器。理論證明,只要每個弱分類器分類能力比隨機猜測好,當分類器的個數趨于無窮時,強分類器的錯誤率將趨于零。該算法根據人臉面部的主要灰度分布特征,選擇采用了Haar特征。Haar特征是一種基于積分圖像的特征,主要用于灰度圖像中,該特征計算比較簡單,提取速度相對較快。Adaboost算法首先提取樣本圖像中的Haar特征,然后通過在訓練過程中選取出最優的Haar特征,再將訓練得出的Haar特征轉換成弱分類器,最終通過一定的方法將這些弱分類器進行組合構成強分類器。分類器訓練完之后,就可以將其應用到圖像中進行人臉區域的檢測。由于人臉可能在圖像中的不同位置出現,所以必須在被檢測的圖像中移動搜索窗口。
對于一個訓練集(xi,yi),…,(xL,yL),其中xi是輸入的訓練樣本,yi是樣本類別標志,yi∈(1,0)對應真假樣本。在開始訓練前,對所有訓練樣本均賦予一個初始權值,然后用AdaBoost學習算法對訓練樣本進行T輪訓練,在每一輪訓練結束后,從若干個簡單分類器中選擇誤差最小的那個作為該輪選出的一個弱分類器hi。選好了弱分類器之后,將所有弱分類器進行線性組合就構成了強分類器。
訓練過程主要包括以下幾個模塊:
(1)樣本的采集,對樣本進行圖像預處理,形成樣本集;
(2)以樣本集作為輸入,計算并獲得矩形特征值集;
(3)對特征值集進行優化處理,選出分辨能力好的特征;
(4)采用AdaBoost算法,在每一輪迭代過程中采用窮舉搜索法確定每個特征對應的簡單分類器的閾值,獲得簡單分類器集,并保存其對應的參數;
(5)選出錯誤率最低的簡單分類器作為本輪最優的弱分類器;
(6)將訓練得到的弱分類器根據其分類能力賦予不同的權重,然后線性組合構成強分類器。
2.2 AdaBoost檢測過程
級聯分類器應用于人臉檢測是由Viola提出的,這使得人臉檢測能在很高檢測率下同時達到實時的檢測速度。級聯分類器由一系列強分類器的組合而成,圖像依次通過每一個強分類器,最終通過全部分類器的區域被檢測為人臉。每一層的強分類器由AdaBoost算法訓練得到,但是組成強分類器的弱分類器個數隨著級數的增加而增加。通過參數的調整可以使前面幾層幾乎讓所有人臉通過,從而拒絕很大一部分非人臉,而后面幾層則對被前面幾層判斷為人臉的圖像進行更加嚴格的檢測。由于前面幾層使用的弱分類器數目比較少,只是有幾個重要的特征組合而成,而且排除了大量非人臉區域為后續的檢測減少了檢測對象數目,所以計算速度比較快。
假定級聯分類器由K個強分類器組成,第i級強分類器的誤檢率為fi,檢測率為di,則最終的誤檢率F和檢測率D分別為:
測試圖像來自生活中的實際數碼照片與從互聯網上收集的圖像,包括不同人種、不同年齡的正面圖像,人臉檢測結果如圖1所示。
3 基于GPRS技術的窄帶數據傳輸
通用無線分組業務(General Packet Radio Service,GPRS)作為第2代移動通信技術GSM向第3代移動通信(3G)技術的過渡技術,是由英國BT Cellnet公司早在1993年提出的,是GSMPhase2+(1997)規范實現的內容之一,是一種基于GSM的移動分組數據業務,面向用戶提供移動分組的IP或者X.25連接。GPRS是一項高速數據處理的科技,它以分組交換技術為基礎,用戶通過GPRS可以在移動狀態下使用各種高速數據業務。
通過GPRS網絡建立TCP連接傳輸數據和指令有2種方式:
(1)監控終端通過GPRS Modem與GSM基站通信,GPRS分組數據包從GSM基站發送到GPRS服務支持節點(Serving GSN,SGSN),再由SGSN送到GPRS網關支持節點(Gateway GPRS Supporting Node,GGSN),GGSN把收到的包進行處理,轉換為可在Internet中傳送的格式,最終送給遠程視頻服務器端。GGSN在GPRS網絡和公用數據網之間起關口站的作用,它可以把GSM網中的GPRS分組數據包進行協議轉換,從而可以把這些分組數據包傳送到遠端的TCP/IP或X.25網絡。
(2)監控終端的GPRS Modem通過GPRS網絡,直接與遠程視頻服務器端的GPRS Modem進行點對點通信,然后通過串口把數據發送給視頻服務器。
整個智能網絡視頻監控系統分為現場視頻采集、處理模塊和遠程視頻服務器2部分,現場視頻采集和處理模塊在上電后自動尋找遠程視頻服務器,而遠程視頻服務器在與現場視頻采集和處理模塊建立TCP連接后,可通過發送指令來遠程控制靜態圖像編碼的傳送。
本文無線視頻監控通過無線視頻監控終端對視頻信號進行實時采集和壓縮,以壓縮圖片格式(JPEG,JPEG2000等)并通過無線網絡傳送到遠程視頻服務器。實現發送實時壓縮圖片。視頻服務器使用套接字通信,應用程序采用面向對象的方法。視頻服務器與監控終端之間使用C/S模型。程序中視頻服務器作為服務器,監控終端作為客戶端。服務器端軟件主要完成監聽客戶端發送的連接請求;同時接收來自多個監控終端的壓縮圖像數據;保存、查看和管理監控終端的圖像數據。
在監控端通過監控設備監測,運算并獲取人臉圖像數據,并通過GPRS網絡通信技術對人臉圖像數據進行無線傳輸,服務器終端進行接收。為了減少傳輸流量負荷,人臉圖像大小歸一化為19×19,從而保證了每個攝像頭傳輸占用不超過20 Kb/s的帶寬,使得整個網絡保證在一個可以承受的范圍內。
4 基于Gabor和支持向量機的人臉識別
4.1 Gabor小波特征提取
Gabor函數由Dennis Gabor于20世紀40年代提出的,后來被J Daugman首先用于表征圖像,并用于視覺方面的研究。隨著計算機的不斷發展,成為非常流行的圖像處理方法。二維Gabor濾波器是一種典型帶通濾波器,由于它具有良好的方向選擇性和頻率選擇性,因此Gabor濾波器被廣泛應用于圖像分析、圖像理解等計算機視覺領域,以獲取圖像信號的空間頻率(尺度)、空間位置和方向選擇性的局部結構信息。
人臉圖像的Gabor特征由人臉圖像和Gabor濾波器的卷積得到。通常的Gabor特征抽取方法是:設為人臉樣本圖像的灰度分布,則在選定Gabor慮波器參數后,對樣本圖像中抽樣點(x,y)提取的特征由下式表示:
式中:G為Gabor函數在點(x,y)處的離散值;(a,b)為Gabor濾波器窗口大小;(w,h)為圖像的尺寸大小。這樣得到的圖像在點(x,y)處的40個Gabor幅值特征對應于以該位置為中心的局部區域的能量分布,將這40個幅值特征級聯起來構成該位置的Gabor特征,通常稱為一個Jet,位置點(x,y)處的Jet表示為:
Jet(x,y)=(Jet(x,y)vμ) (7)
將所有抽取點提取的Gabor特征構成一張人臉樣本的特征矢量:
F1={Jet(x,y)|0≤y≤h} (8)
顯然,對于一副19×19大小的人臉圖像如果按上述方法逐個象素抽取Gabor特征,得到的Gabor特征向量F的維數為19×19×40=14 440,遠遠高于原始圖像的維數19×19=361。如果直接利用這樣的高維Gabor特征矢量進行分類器的訓練和圖像識別,將產生通常所講的維數災難。因此必須對高維Gabor特征矢量進行適當的降維。
4.2 支持向量機SVM
支持向量機(Support Vector Macine,SVM)是一種對線性分類器的最優設計方法論。它對非線性、高維數的小樣本人臉識別問題有非常好的分類效果和學習推廣能力,是目前模式識別的常用的分類器。
SVM從線性可分情況下的最優分類面發展而來。設2類可分樣本集(xi,yi),i=1,2,…,n;
?
人臉識別屬于非線性問題,根據模式識別的理論,總可以將低維空間非線性可分得問題映射到高維空間,使其在高位空間線性可分。從而把非線性可分的問題轉化為線性可分問題。利用核函數K(xi,x)可將輸入向量x映射到高位空間進行分類,此時最優分類超平面的決策函數式變為:
常用的核函數有:線性核函數K(xi,x)=(xix);多項式核函數K(xi,x)=[(xix)+1]d;徑向基核函數;Sigmoid核函數。
對于多類模式識別問題,SVM可通過2類問題的組合來實現。通常有2種策略:“一對一”策略,即分類的每一步將其中的任意2類模式分開,這樣,對于N類問題,則需要N(n-1)/2個支持向量機分類器;另一種“一對多”策略,即分類的每一步將其中的一類模式和其它的所有模式分開,這樣,對于N類問題,則需要N個與每個類對應的支持向量機分類器。本文采用“一對一”的策略來的人臉進行分類識別。
人臉圖像庫來源于http://www.ai.mit.edu/projects/cbcl。訓練集包括6 977個19×19圖像樣本,2 429張的人臉和4 548張非人臉。本文選用了庫中的1 000幅人臉圖像,2 000幅非人臉圖像。由于MITCBCL數據庫中的人臉都是國外的,所以筆者采集了500幅國內的人臉圖像,并將其標準化為19×19的尺寸。所以人臉總數共1 500幅,非人臉圖像總數共2 000幅。實驗結果如表1所示。
5 結語
本文采用AdaBoost算法進行人臉的檢測,根據人臉面部的主要灰度分布特征,選擇采用了Haar特征,通過在訓練過程中選取出最優的Haar特征,再將Haar特征轉換成弱分類器,最終組合構成強分類器,應用到圖像中進行人臉區域的檢測,得到較準確的人臉信息。采用GPRS技術進行人臉圖像數據的無線傳輸,通過無線視頻監控終端對視頻信號進行實時采集,并通過無線網絡傳送到遠程視頻服務器。采用Gabor小波進行人臉特征提取,采用SVM進行分類,采用“一對一”的策略來的人臉進行分類識別。
雖然本文從各方面都考慮了算法的有效性,但是在實際運行中還是存在不足的地方,如攝像頭達到一定數量時,傳輸速率受到一定影響,如何保證傳輸速率和圖像較少失真問題有待進一步研究解決。
評論
查看更多