資料介紹
隨著科技的不斷發展,數據的獲取及存儲能力有了極大提升,致使數據規模呈現急速膨脹態勢。這為數據挖掘和數據分析帶來更多機遇的同時,各種數據質量問題的研究也給我們提出了巨大的挑戰,其中數據缺失是影響數據質量的重點問題之一。數據庫中大量的缺失值不僅嚴重影響應用者的查詢質量,還會對數據挖掘與數據分析結果的正確性造成影響,進而誤導決策。因此,本文針對缺失數據填補這類問題展開深入研究。目前缺失數據的填補方法很多,大部分方法是針對不完整數據中存在一種缺失類型的數據進行填補,但隨著數據量的增長,龐雜的數據中缺失類型往往是混合的,單純地應用現有的方法達不到一個很好的填補效果。為此,本文針對不同缺失類型同時出現在不完整數據中的這種復雜情況展開研究。主要工作如下:
首先,本文針對常規型缺失數據的特點結合關聯規則的原理,提出了一種基于弱可用項集的數據填補方法,從關聯規則填補缺失值存在的兩個問題展開深入研究。第一,針對頻繁項集挖掘時間長這個問題提出了一種基于布爾矩陣的關聯規則挖掘方法,該方法結合布爾矩陣運算的特點來快速求解相關參數,減少 I/O 操作的同時也從整體上優化了頻繁項集的挖掘效率。第二,針對產生規則少影響填補率這個問題提出了一種基于弱可用項集的填補方法,該方法通過在頻繁與弱可用項集之間建立連接,一方面利用挖掘出的連接規則提高了填補率;另一方面利用挖掘出的互斥規則為下一步的填補提供了更有效的計算依據。
然后,本文針對異常型缺失數據的特點結合推薦算法的思想,提出了一種基于元組相似度的數據填補方法。從相似元組的查找效率和求解元組相似度的準確性上進行優化,一方面通過建立項目-元組倒排表來提高相似元組的查找效率;另一方面基于屬性貢獻度來計算元組相似度,最后利用 top-k 得分獲得最優填補值。
最后,本文采用一組真實的 UCI 數據集進行實驗,證明了本文提出的這套填補方法在混合型缺失數據中更高效。
隨著互聯網及信息技術的高速發展,數據作為這些技術不可或缺的資源正在被以指數級增長的速度開采和挖掘,龐大的數據給社會生產、經濟研究、生物醫學、信息科學研究等諸多領域的改革創新帶來無限機遇的同時,也帶來了越來越多的挑戰,那就是如何挖掘出隱含在這些海量數據中有價值的信息和知識,因此,數據挖掘[1]作為一項重要的技術隨之應運而生,并得到社會生產、經濟研究、生物醫療、科學研究等許多領域的廣泛應用,取得了巨大的社會效益和經濟效益。然而許多模型和算法都是建立在高質量的數據集上,但現實世界中的數據集很多都存在數據缺失、數據不一致、數據冗余、噪聲數據等問題[2,3]。這些問題將嚴重影響數據挖掘的成功與否和適用性能,成為數據挖掘的障礙。因此,為了能有效地應用數據挖掘的方法和提高挖掘的質量,在對數據庫中的數據進行分析之前要對數據進行預處理,其中數據缺失問題的處理是預處理中非常重要的一個環節。
在現實社會的各個領域中,數據缺失現象可以說是無處不在,且處理不當會對后續的生產和研究工作帶來很多不利影響。比如,在工業生產過程中,由于硬件設備等問題導致一些數據不能正常獲取;在大型普查過程中,可能因為時間、地理位置的變化導致普查結果的不完整;在醫療領域,經常需要對各種病歷進行臨床實驗,但由于有些病人的檢驗結果不能第一時間獲取而導致實驗數據缺失的情況;在市場調研時,由于被調研者對于問題的理解程度不同,或是主觀的某些原因都會導致調研結果的缺失出現。可以看出數據缺失問題覆蓋了經濟研究、社會生產、人們生活產品制造和科學研究的各個方面且不可避免,并且隨著數據量的激增呈現出一種上升的態勢,如果對缺失數據的處理僅僅停留在單一地處理(像刪除含缺失值記錄或使用均值填充)層面上,很難從整體上來把握數據的趨勢變化,更糟糕的是可能會因為這樣的分析結果導出錯誤的決策,這不管對于科學研究還是社會生產等各個領域都是不愿看到的。
為了能在海量數據中挖掘出有意義的信息資源從而為決策者提供科學依據,
數據質量研究成為目前重要研究課題,其中合理填補缺失值、構建更為準確的完整數據集是課題研究中的一個難點和重點。因此,我們要認識到填補缺失值對于數據挖掘及數據分析有著重要的意義。
1. 填補缺失值能夠防止刪除含有少量缺失值的重要記錄,這樣使得數據集中某些重要信息得以保留從而為正確決策提供有效依據。
2. 填補缺失值能夠重新修復出一個完整的數據集,從而讓數據挖掘能在一個全總的數據集上進行分析,而不是在局部數據上進行分析,避免了因局部分析結果的片面性而產生錯誤的決策。
3. 填補正確的缺失值可以避免因引入新的噪音而影響數據挖掘的效果。因此,深入研究數據缺失問題,不僅為了全面、準確地利用現有數據去反映真實的實際情況,更是為了能夠進行高層次的分析進而挖掘出這些數據隱含的、有用的關系和規則。所以,本文的主要工作就在于對現有的主流填補方法進行較全面的分析后,研究如何利用現有數據完成對數據集中存在的混合型缺失數據的填補工作,提出了一套新的缺失數據填補方法,并對其填補結果進行分析與評價,以期為實際數據預處理提供借鑒,具有非常重要的現實意義。
- 基于張量的車輛交通數據缺失估計方法 5次下載
- 一種對4/5G鄰區缺失問題核查方法資料下載
- 基于稀疏表示的電力負荷缺失數據補全方法 15次下載
- 智能型住宅安防報警系統的研究詳細資料免費下載 16次下載
- 基本型組態工業串口屏數據手冊資料免費下載 18次下載
- 網絡搜索-填補信息斷層的詳細中文資料免費下載 11次下載
- 一種直流混合型超導限流器的方案 0次下載
- 混合型限流及開斷技術綜述 6次下載
- 混合型濾波器的結構及其補償原理的介紹 41次下載
- DC_DC_AC混合型MMC變換器控制策略分析與設計_魏亮 0次下載
- 直流混合型斷路器與直流故障限流器的匹配研究 1次下載
- 精密混合型注塑機熔膠機構模糊PID控制的研究與仿真 19次下載
- 高頻高效率混合型潘尼管的理論分析
- 混合型防火墻的研究與設計
- 文本分類中一種混合型特征降維方法
- 解析混合放大器的使用方法 611次閱讀
- 制造等離子納米金剛石 615次閱讀
- 數據增強使用的傳統算法方法 514次閱讀
- 中控智慧科技考勤機iFace501介紹 2219次閱讀
- SCI科技型論文框架構思及其“潛規則” 2967次閱讀
- 用AI打擊論文圖像造假,仍有4000多篇醫學“問題論文” 4759次閱讀
- Vishay推出微測量混合型傳感器系列,可使工業生產率得到大幅提高 786次閱讀
- CRYPTYK采用兩個互補的去中心化平臺組成“混合區塊鏈” 2276次閱讀
- IGBT及其子器件的四種失效模式比較分析 1.6w次閱讀
- HB型混合式步進電機的結構和工作原理詳解 2w次閱讀
- proteus和protel的區別 4.6w次閱讀
- AUTOCAD2009免費下載中文版 CAD2009簡體中文下載及安裝方法 1.2w次閱讀
- 基于LabVIEW和Matlab混合編程的小波降噪方法 1w次閱讀
- 基于DSP的功率電感5kW離網型光伏逆變器設計 3251次閱讀
- 高壓并聯式混合型電網高次諧波有源濾波裝置 1063次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1490次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 92次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關電源原理及各功能電路詳解
- 0.38 MB | 10次下載 | 免費
- 6基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
- 7藍牙設備在嵌入式領域的廣泛應用
- 0.63 MB | 3次下載 | 免費
- 89天練會電子電路識圖
- 5.91 MB | 3次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關電源設計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉中文版)
- 78.1 MB | 537791次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233045次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論
查看更多