大數據會影響質量,因為大數據的定義特征是數量,種類和速度使驗證變得困難難以捉摸的“第四”,即準確性組件(關于數據可靠性),由于可能會聚集大量的數據源而面臨挑戰,每個數據源可能會遇到不同的質量問題,大數據還釋放了可能引入新類型數據錯誤的新的和更復雜的查詢的可能性,同時由于非結構化數據比結構化數據具有更大的不確定性,因此非結構化數據會產生問題,并且機器學習算法傾向于充當“黑匣子”,其中數據中包含的偏差可能永遠不會消失。
您的數據質量工具箱盡管已經開發了許多工具來解決數據質量問題,但是如果不小心應用自動條目更正本身可能會降低數據質量,所有影響數據清晰度的因素(例如準確性,一致性,及時性,重復性,易失性,完整性和相關性)都可能導致進一步的問題,因為企業會更正數據并將其調整為適合處理的形式,每個轉換都可能會丟失可能與給定查詢相關的信息,當前的數據質量工具由主要的分析公司,利基公司和開源提供,它們提供諸如數據清理,數據概要分析,數據匹配,數據標準化,數據豐富和數據監視之類的功能,諸如金融服務之類的利基工具專注于特殊類型的問題,并且正在開發新的工具,這些工具采用機器學習技術進行數據分類和數據清理。在將大數據與機器學習相結合的地方,還會出現其他質量問題為規范化數據而進行的更改可能導致機器學習算法在解釋上出現偏差,大型數據存儲中錯誤發生的頻率相對較低,可以說使得對數據質量檢查的需求變得不那么重要了,但現實情況是,質量問題只是轉移到了其他領域,自動校正和一般假設可能會在整個數據集中引入隱藏的偏差。
保持真實必須根據業務需求了解數據質量,在某些情況下,需要采用涉及無數變量的嚴格方法,但是對于許多查詢而言,更寬容的方法是可以接受的,在及時性和準確性,查詢值和數據清理以及準確性和可接受的錯誤之間始終需要權衡取舍,在復雜的數據和分析環境中,沒有一個適合所有大小的空間,查詢需要不同級別的準確性和及時性。
以一種方式構造的數據可能適用于某些用途,但會導致其他用途的結果不準確或有偏差。數據質量的最終測試是它是否產生所需的結果這要求進行嚴格的測試,并考慮引入錯誤的潛在原因,盡管用于數據清理,規范化和整理的工具越來越受歡迎,但可能的因素的多樣性意味著這些過程不會在短期內完全實現自動化,隨著自動化的普及,您必須確保自動化解決方案不會由于轉換規則而在數據流中引入新問題。確定性的不確定性由于數據集和結構化數據有限,因此數據質量問題相對明確,創建數據的過程通常是透明的,并且會遇到已知錯誤:數據輸入錯誤,表格填寫不正確,地址問題,重復等,可能的范圍相當有限,并且要嚴格定義處理的數據格式,隨著機器學習和大數據的出現,數據清理的機制必須改變,除了更多,更快的數據外,非結構化數據的不確定性也大大增加,數據清理必須解釋數據并將其放入適合處理的格式,而不會引入新的偏差,此外質量過程將根據特定用途而有所不同。數據質量比絕對質量更重要。
根據研究目標和業務目標,需要使查詢與數據集更好地匹配,數據清理工具可以減少數據流中的一些常見錯誤,但始終存在潛在的意外偏見,同時查詢需要及時且負擔得起,從未迫切需要一種謹慎的數據質量方法,機器學習和高級軟件工具無疑提供了解決方案的一部分,從而有可能為質量問題帶來新的方法,但是沒有萬能藥,更高級別的復雜性意味著需要更仔細地檢查數據。
責任編輯:YYX
-
數據
+關注
關注
8文章
6898瀏覽量
88834 -
機器學習
+關注
關注
66文章
8378瀏覽量
132415 -
大數據
+關注
關注
64文章
8864瀏覽量
137304
發布評論請先 登錄
相關推薦
評論