1 引言
手寫簽名認證方法屬于生物測定技術。簽名認證與其他生物測定技術相比,具有難以模仿、區分性較高、尊重隱私權、信息獲取高效等優點,在特征的可搜集性、人體傷害可接受性和魯棒性方面都很突出,具有廣闊的應用前景。但與其他生物測定方法相比,手寫簽名認證的識別率并不是很高,尤其是脫機中文手寫簽名認證。因為在脫機簽名認證中,丟失了書寫過程中的動態信息,使可利用的信息減少,增加了鑒別的難度。另外,有些高超的偽造簽名模仿得惟妙惟肖,有時即使是人類專家進行鑒定,識別率也可能會很低。這里針對脫機中文簽名,提出一種主成分特征提取和徑向基神經網絡相結合的脫機手寫簽名認證方法。
2 主成分特征提取
假設x是一個N×1的隨機向量,即x的每個元素xi都是一個隨機變量。x的均值可用L個樣本向量估計:
從而λk也是Cy的特征值。因為Cy的非對角元素都是零,所以y個元素之間都是不相關的。于是線性變換A去掉了變量間的相關性。此外,λk是第k個變換后的變量yk的方差。可通過略去對應于較小特征值的一個或多個特征向量給y降維。令B為M×N的矩陣(M《N),B是通過丟棄A的下面N-M行,并假定m=0構成的,這樣,變換向量變小(即成為M×1維):
MSE只是與被舍棄的特征向量對應的特征值之和。通常,特征值幅度差別很大,可忽略其中一些較小值而不會引起很大誤差。
進行模式分類時.理論上可將一幅MxN圖像的M×N個灰度特征作為分類依據,但這樣會引起算法運算時間過長而失去意義,系統也因此崩潰。如何對這M×N個灰度特征進行主要特征提取,用提取出的k個灰度特征表征該圖像而使算法不會引起很大誤差。根據以上論述得知,這樣做可行。
對一幅M×N的簽名罔像,首先將圖像進行局部區域劃分,即將圖像劃分成4×4或者8×8的小塊,這樣一幅圖像就被劃分成L個小塊,即:
然后將每一個小塊的16(或64)個灰度值看成一個N×1的隨機變量.假設x是一個N×1的隨機向量,x的每一個元素都是用上面的一個小塊的16(或64)個灰度值構成的隨機變量。實際x是一個16(或64)×L的矩陣,x的協方差矩陣由式(10)估計:
通過求得Cx的特征值來表征圖像的灰度主成分特征。將求得的特征值與先前的M×N個灰度特征相比,已明顯減少。這里取前10個最大的特征值作為特征分類依據,由于后面的特征值很小,對其忽略不會引起太大誤差。
3 徑向基函數神經網絡及其分類器設計
徑向基函數神經網絡RBFNN(Radial Basis FunctionNeural Network)起源于數值分析中的多變量插值的徑向基函數,它不僅具有任意精度的泛函逼近能力和最優泛函逼近特性,而且具有較快的收斂速度。這里利用徑向基函數神經網絡構成一個分類器實現簽名真偽的認證采用高斯核函數作為徑向基函數,形式為:
式中,wi是第i個隱結點到輸出層結點的權值,θ是輸出層結點的閾值。
一般常利用K均值聚類算法確定各基函數中心及相應的方差,網絡權值的確定用局部梯度下降法修正。由于K均值聚類方法要事先給出聚類個數K,且聚類結果對K 值大小都很敏感,不同K值的聚類學習結果往往大相徑庭,因此,如何確定K值是一個難題。這里不采用上述的K均值聚類方法,而采用文獻[4]中的一種根據相似性閾值和最小距離原則的簡單聚類方法確定RBF網絡的中心。其主要步驟為:
(1)設待分類的模式集為{x1,x2…xn},選定類內距離門限T;
(2)seed=RandomSelect(x);∥從對象集合x中,任選一對象Seed;
(3)Dist1,2=Compute Distance(seed,x2);∥計算下一模式特征矢量x2到Seed的距離;
(4)若Dist1,2》T,則建立新的一類ω2,其中心Z2=x2,若Dist1,2≤T,則x2∈ω1;
(5)假設已有聚類中心Z1·Z2…Zk,計算尚未確定類別的特征矢量xi到各聚類中心Zj(j=1,2…,k)的距離dij。如果dij》T,則 xi作為新的一類ωk+1的中心,Zk+1=xi,否則,如果dij=mindij,則判斷xi∈ωg,檢查是否所有的模式都劃分完類別,如都劃分完則結束,否則返同(5),
上述算法采用規格化的Euclidean計算公式度量兩個對象間的距離。具體公式定義如下:
對象間的平均距離與對象的個數及維數有關。在一定空間內,待分類的對象個數越少,各對象的維數越大,各對象間的距離就越大;反之,對象數量越大,各對象的維數越小,則各對象間的距離就越小。
在包含有N個對象的m維單位空間(各屬性取值均采用規格化處理)中,對象間的平均距離為以此為標準,并按照“各聚類中對象問的距離不應超過此標準,各聚類間距離不應低于此標準”的規則進行聚類學習。采用此方法得到的聚類類別數即為將要確定的隱層神經元數。
整個RBF網絡的學習步驟為:
(1)設由上述聚類算法得到的RBF網絡隱層單元數為K,最大允許誤差ε,置所有可調參數(權)為均勻分布的較小數(0~1或-1~1之間的隨機數)。置初始誤差E為0,學習率η為0~1之間的小數。網絡訓練后達到的精度Emin為一個正小數。
(2)采用上面根據相似性閾值和最小距離原則的簡單聚類方法確定基函數的中心Zi及δi方差,
(3)按梯度下降法調整網絡權值W直至誤差E《ε,才結束。
4 實驗結果
徑向基神經網絡由主成分特征提取出的10特征值作為輸入節點,而隱含層節點個數則根據每組訓練樣本的不同(參見上述算法)確定,輸出層只有一個神經元,該神經元的輸出就是簽名圖像的對應分類(真假兩類)。
實驗中共采集11個人的660個簽名。每人有30個真簽名和其他人模仿的30個假簽名。圖1和圖2是部分訓練和測試樣本,圖1和圖2的前兩個簽名為作者簽名,其他為假冒簽名。
在每個人的60個簽名中,42個簽名(其中真簽名21個,假簽名21個)作為訓練樣本,剩下的18個真假簽名作為測試樣本,因為有11個人的11組簽名,所以認證工作也分成11次,即1次進行1個人訓練簽名樣本的訓練和測試樣本的測試。把這些樣本送入RBF神經網絡進行分類驗證,實驗結果見表1:
5 結論
提出一種基于主成分特征提取和徑向基神經網絡相結合的脫機手寫簽名認證方法。首先為了減少運算量,對經過預處理的簽名灰度圖像進行降維,即采用主成分特征提取的方法降低圖像維數,同時過濾掉高頻干擾信號,突出簽名的主要特征,得到適合計算機識別的低維圖像,然后在簽名的分類認證中,基于徑向基神經網絡的驗證方法可以在合理的時間內,以較少的主成分個數得到較好的識別效果。因為國內尚未出現統一的簽名數據庫,實驗在自行采集的小型簽名數據樣本進行,對更大型的數據庫的認證識別是今后需做的工作。
責任編輯:gt
-
神經網絡
+關注
關注
42文章
4762瀏覽量
100539 -
計算機
+關注
關注
19文章
7421瀏覽量
87718 -
函數
+關注
關注
3文章
4306瀏覽量
62430
發布評論請先 登錄
相關推薦
評論