Top-k相似連接算法性能優化
大小:1.77 MB 人氣: 2018-01-05 需要積分:3
標簽:Top-K(6563)
相似連接算法在數據清理、數據集成和重復網頁檢測等領域有著廣泛的應用.現有相似連接算法有兩種類型:基于相似度閾值的相似連接和Top-k相似連接.Top-k連接算法非常適合于相似度閾值未知的應用場景,目前最為有效的Top-k相似連接算法是Xiao等人提出的Topk-j oin.為了解決Topk-j oin中存在的性能問題,提出了一種Top-k相似連接算法Opt-j oin,該算法將Token批處理技術集成在現有的事件驅動框架中,以降低前綴事件的處理代價;通過置換哈希查找與過濾操作的執行位置來降低哈希查找代價,并理論證明了該置換的正確性.實驗結果表明:與Topk-join算法相比,Opt-join取得了1.28倍-3 .09倍的性能提升.實驗數據還顯示:隨著數據長度的增加或K值的增長,Opt-join的性能優勢有不斷增加的趨勢,
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%