基于相似度過濾的大數據保序匹配與檢索算法
伴隨大數據時代的到來,數據快速保序匹配與檢索成為眾多大數據應用急需解決的關鍵問題,通過抽象與歸約等措施,數據對象可抽象為具有若干屬性的點集或序列,從而將數據匹配問題轉化為字符或數字序列匹配問題。提出一種基于相似度過濾的數據保序匹配與檢索算法,算法分三步:(l)數據轉換,基于幅值變化趨勢將原始序列轉換為二進制,對序列中任何一個字符,通過判斷包括其前后鄰居在內的三個點的關系定義二進制序列,準確反映相鄰三點之間的凸增長(降低)或凹增長(降低)關系;(2)數據歸約,為方便候選序列與模式序列之間的相似度計算,運用基于幅度變化比例的數據歸約方法,將候選序列與模式序列均歸約到固定區間;(3)相似度計算,為區分不同趨勢的凸增長(降低)或凹增長(降低)幅度,通過計算候選序列與模式序列對應點之間的差值絕對值之和作為相似度判斷依據,提出基于相似度過濾的快速匹配方法,尋找與模式序列變化趨勢一致的子序列集合,并按照相似度大小排序。理論分析與實驗結果表明:(1)該算法具有亞線性時間復雜度;(2)該算法能有效解決Chhabra等人算法對數據震蕩幅度失控的問題,同時解決數據序列與模式序列分段規律但整體不相似的閘題;(3)解決了Chhabra等人算法中對匹配序列排序造成的匹配結果疏漏問題。該方法不僅能更準確、更多地匹配出變化趨勢一致的子字符串,同時將多個候選子串根據與模式之間的相似度進行排序,為進一步的數據精確檢索提供判斷依據。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
基于相似度過濾的大數據保序匹配與檢索算法下載
相關電子資料下載
- 數據分析工具有哪幾種模式 83
- 中交興路入選2024北京“數據要素×”典型案例集 886
- 中國鐵塔與海康威視達成戰略合作 217
- 熱濕交換器過濾器壓降測試儀上海程斯與XX醫療達成合作上門培訓 84
- spark運行的基本流程 91
- 季豐電子與孤波科技攜手合作為車規量產提供大數據支持 740
- 智慧園區綜合安防系統解決方案 83
- 大數據采集系統分為幾類 269
- 如何在數字化時代實現精益生產的創新發展? 117
- 控制閥氣開氣關的選擇原則 171