應用Q-gram命中特征優化的近似串匹配算法
大小:1.38 MB 人氣: 2017-11-14 需要積分:0
近似串匹配( Approximate String Matching)是允許有“錯誤”發生的字符串匹配,它在文本串中查找所有與模式串之間錯誤數不大于一定閾值的所有匹配串。字符串間的錯誤數可采用編輯距離、漢明距離、最長公共子串等表示。編輯距離是指把一個字符串經過插入、修改或刪除3種編輯操作轉變成字符串所要進行的最小操作次數,常用表示。近似串匹配技術在眾多研究領域都有廣泛的應用,如文本檢索、生物信息學、信號處理和模式識別等。
基于Off-Iine模式的過濾算法是一種采用先過濾冉驗證的二階段近似串匹配方法。過濾算法因采用過濾技術能在前期快速去除大量文本區域,適合Off-line模式下的大文本庫匹配。目前,過濾算法可歸為二類:精確匹配子串法和近似匹配子串法。精確匹配子串法通過定位無錯誤的模式串子串進行過濾。
本研究主要解決的是在大文本庫中快速查找與模式串間錯誤率不大于的所有匹配串的問題。文中將結合KS算法和q-gram命中特征,設計一個新的無損過濾算法,擬通過犧牲一定過濾時間來換取較大過濾效率的提升,最終達到提高算法整體匹配速度的目的。
?
非常好我支持^.^
(0) 0%
不好我反對
(1) 100%