當(dāng)前越來越多的組織認(rèn)識到了數(shù)據(jù)的重要性,為了發(fā)揮數(shù)據(jù)的價(jià)值,數(shù)據(jù)倉庫、大數(shù)據(jù)平臺、數(shù)據(jù)中臺的建設(shè)如雨后春筍。但數(shù)據(jù)是一把雙刃劍,它能給企業(yè)帶來業(yè)務(wù)價(jià)值的同時(shí)也是組織最大的風(fēng)險(xiǎn)來源。糟糕的數(shù)據(jù)質(zhì)量常常意味著低效的、錯(cuò)誤的業(yè)務(wù)決策,將直接導(dǎo)致數(shù)據(jù)統(tǒng)計(jì)分析不準(zhǔn)確、監(jiān)管業(yè)務(wù)難、高層領(lǐng)導(dǎo)難以決策等問題。如何在數(shù)據(jù)中臺搭建數(shù)據(jù)質(zhì)量管理體系,形成常態(tài)化的數(shù)據(jù)質(zhì)量管理流程是決定數(shù)據(jù)中臺運(yùn)營應(yīng)用的重要因素。
目錄:
1.?dāng)?shù)據(jù)質(zhì)量問題的產(chǎn)生來源
2.?dāng)?shù)據(jù)質(zhì)量問題域及分類
3.?dāng)?shù)據(jù)質(zhì)量管理體系建設(shè)的五個(gè)原則
4.?dāng)?shù)據(jù)質(zhì)量管理框架及關(guān)鍵技術(shù)
5.?dāng)?shù)據(jù)質(zhì)量管理的最佳實(shí)踐
1、數(shù)據(jù)質(zhì)量問題的產(chǎn)生來源
現(xiàn)在的數(shù)據(jù)集成融合就和古人筑堤壩一樣,古人筑堤壩是為約束河水,讓自然資源為我所用,發(fā)揮自然資源的價(jià)值;今人做數(shù)據(jù)集成融合,建數(shù)據(jù)中臺,是為了挖掘數(shù)據(jù)價(jià)值,發(fā)揮數(shù)據(jù)資源的價(jià)值,讓數(shù)據(jù)資源為企業(yè)的業(yè)務(wù)創(chuàng)新發(fā)揮價(jià)值。
在企業(yè)信息化初期,各類業(yè)務(wù)系統(tǒng)恣意生長,這個(gè)階段就像沒有修筑大堤前的黃河,河水雖然漫流,但是河道寬闊,雖然也有數(shù)據(jù)問題,但不明顯。
在企業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型的背景下,尤其是搭建了數(shù)據(jù)中臺的組織,需要按照統(tǒng)一的結(jié)構(gòu)和標(biāo)準(zhǔn)把各類數(shù)據(jù)集成起來,就像筑堤束水之后的黃河,泄流不暢、決口不斷等問題紛紛出現(xiàn),數(shù)據(jù)不一致、不完整、不準(zhǔn)確等各種問題撲面而來。
大數(shù)據(jù)時(shí)代數(shù)據(jù)集成融合的需求會(huì)愈加迫切,不僅要融合企業(yè)內(nèi)部數(shù)據(jù),也要融合外部(互聯(lián)網(wǎng)等)數(shù)據(jù)。如果沒有對數(shù)據(jù)質(zhì)量問題建立相應(yīng)的管理策略和技術(shù)工具,那么數(shù)據(jù)質(zhì)量問題的危害會(huì)更加嚴(yán)重。據(jù)IBM統(tǒng)計(jì),數(shù)據(jù)分析員每天有30%的時(shí)間浪費(fèi)在了辨別數(shù)據(jù)是否是“壞數(shù)據(jù)”上。
2、數(shù)據(jù)質(zhì)量問題域及分類
數(shù)據(jù)質(zhì)量問題從大的方面可以劃分為技術(shù)、業(yè)務(wù)和管理問題域。技術(shù)問題域包括數(shù)據(jù)校驗(yàn)不夠、默認(rèn)值使用不當(dāng)?shù)葐栴},通常是由于系統(tǒng)建設(shè)和數(shù)據(jù)處理導(dǎo)致的。業(yè)務(wù)問題域細(xì)分為信息問題域和流程問題域,業(yè)務(wù)上存在多渠道數(shù)據(jù)創(chuàng)建、不合理的數(shù)據(jù)變更流程的問題。管理問題域包括數(shù)據(jù)責(zé)任人不明確、沒有獎(jiǎng)懲制度,缺少培訓(xùn)等。
下圖是企業(yè)數(shù)據(jù)創(chuàng)建、加載、匯總、分析到展現(xiàn)的5個(gè)步驟,很顯然,步驟①~⑤任何一步出錯(cuò)都會(huì)導(dǎo)致整個(gè)結(jié)論分析失真。
業(yè)務(wù)操作部門在數(shù)據(jù)錄入過程可能輸入錯(cuò)誤的數(shù)據(jù)。這決定了數(shù)據(jù)源的質(zhì)量。
在數(shù)據(jù)抽取、加載工程中導(dǎo)致數(shù)據(jù)記錄丟失、數(shù)據(jù)重復(fù)等問題。
在數(shù)據(jù)加工、轉(zhuǎn)換過程中,由于數(shù)據(jù)加工、轉(zhuǎn)換的代碼魯棒性和穩(wěn)定性不夠,導(dǎo)致的數(shù)據(jù)加工結(jié)果出現(xiàn)的錯(cuò)誤。
數(shù)據(jù)計(jì)算匯總過程中,導(dǎo)致的數(shù)據(jù)的錯(cuò)誤。
分析展現(xiàn)工具將加工好的數(shù)據(jù)展現(xiàn)給數(shù)據(jù)分析人員、管理決策人員出現(xiàn)的錯(cuò)誤。
在某種意義上講,分析者所做出的決策的正確性來源于企業(yè)信息源的質(zhì)量、數(shù)據(jù)倉庫本身的質(zhì)量、數(shù)據(jù)集市的質(zhì)量以及數(shù)據(jù)倉庫各過程的質(zhì)量。我們可以看到,在數(shù)據(jù)應(yīng)用過程中5步中有4步是技術(shù)或管理造成的,只有1步會(huì)是錄入環(huán)節(jié)導(dǎo)致。而恰好是這一步是數(shù)據(jù)中臺無法管理和解決的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。因此從根本上解決數(shù)據(jù)質(zhì)量問題,從源頭解決是最有效的途徑,在輔助數(shù)據(jù)中臺從技術(shù)和管理上加強(qiáng)測試、規(guī)范和監(jiān)控,那么數(shù)據(jù)質(zhì)量問題的解決就水到渠成了。
3、數(shù)據(jù)質(zhì)量管理體系建設(shè)的五個(gè)原則
總結(jié)古人治理黃河水患,主要有兩種策略,一種是“疏通”,上策遷移民眾和中策分流黃河水患,都是具體體現(xiàn);另一種是“圍堵”,加高增厚堤防,抑制河水爛漫。
治理數(shù)據(jù)質(zhì)量的問題可以應(yīng)用下古人的智慧和考量。采用規(guī)劃頂層設(shè)計(jì),制定統(tǒng)一數(shù)據(jù)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn),設(shè)計(jì)數(shù)據(jù)質(zhì)量的管理機(jī)制,建立相應(yīng)的組織架構(gòu)和管理制度,采用分類處理的方式持續(xù)提升數(shù)據(jù)質(zhì)量,這是數(shù)據(jù)質(zhì)量管理“疏”的方式。而單純依賴技術(shù)手段,通過增加ETL數(shù)據(jù)清洗處理邏輯的復(fù)雜度,使用數(shù)據(jù)質(zhì)量工具來發(fā)現(xiàn)ETL數(shù)據(jù)處理中的問題屬于“堵”的方式,只能解決表面的問題,不是根本的解決方法。事實(shí)上這種方式也在好多企業(yè)中使用,其根本目的在于提高ETL處理的準(zhǔn)確度,做法無可厚非,畢竟找別人的問題之前,先要保證自身是沒有問題的。
按照多個(gè)行業(yè)實(shí)施數(shù)據(jù)質(zhì)量管理項(xiàng)目的經(jīng)驗(yàn),數(shù)據(jù)質(zhì)量管理應(yīng)該是采用“疏”和“堵”相結(jié)合的方式,通過這種方式解決數(shù)據(jù)質(zhì)量問題有5個(gè)原則。如下圖所示:
1)全程監(jiān)控原則:全程監(jiān)控是針對數(shù)據(jù)生命周期全過程中各環(huán)節(jié)進(jìn)行數(shù)據(jù)質(zhì)量監(jiān)控,從數(shù)據(jù)的定義、錄入、獲取、計(jì)算、使用的全過程進(jìn)行質(zhì)量監(jiān)控。數(shù)據(jù)定義階段,對數(shù)據(jù)模型、字典枚舉值進(jìn)行監(jiān)控,判斷是否遵循了統(tǒng)一的標(biāo)準(zhǔn)。數(shù)據(jù)錄入階段對輸入的合法性進(jìn)行校驗(yàn)等,數(shù)據(jù)獲取階段對數(shù)據(jù)記錄數(shù)、數(shù)據(jù)一致性進(jìn)行檢核等。明確各部門在數(shù)據(jù)全生命周期中的責(zé)任,全方位保證數(shù)據(jù)質(zhì)量。
2)閉環(huán)管理原則:從問題定義、問題發(fā)現(xiàn)、問題整改、問題跟蹤、效果評估5個(gè)方面建立問題處理的閉環(huán)機(jī)制。從業(yè)務(wù)、技術(shù)兩個(gè)維度出發(fā)做問題定義,由工具自動(dòng)發(fā)現(xiàn)問題,明確問題責(zé)任人,通過郵件、短信等方式進(jìn)行通知,將問題及時(shí)通知到責(zé)任人,跟蹤問題整改進(jìn)度,建立相應(yīng)的質(zhì)量問題評估KPI,保證數(shù)據(jù)質(zhì)量問題管理閉環(huán)。
3)全員參與原則:數(shù)據(jù)質(zhì)量提升涉及到組織多個(gè)部門,包括不僅限于數(shù)據(jù)提供方、數(shù)據(jù)消費(fèi)方、數(shù)據(jù)質(zhì)量管理員等。尤其在數(shù)據(jù)質(zhì)量問題定義和整改階段需要多方人員的參與才能達(dá)到效果。在數(shù)據(jù)質(zhì)量問題定義階段,需要數(shù)據(jù)責(zé)任人、業(yè)務(wù)專家、數(shù)據(jù)使用人員對數(shù)據(jù)問題校驗(yàn)規(guī)則達(dá)成一致,共同制定數(shù)據(jù)檢核范圍、數(shù)據(jù)問題條件等。問題整改階段,要由數(shù)據(jù)責(zé)任方、數(shù)據(jù)質(zhì)量管理員和技術(shù)人員,共同定位問題原因并進(jìn)行整改。
4)借助工具,自動(dòng)檢核:數(shù)據(jù)質(zhì)量工具保證問題發(fā)現(xiàn)的效率。在數(shù)據(jù)使用過程中深入分析已發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題的成因,及時(shí)由IT部門將其轉(zhuǎn)化為技術(shù)規(guī)則落地到系統(tǒng)中,通過技術(shù)手段自動(dòng)檢核數(shù)據(jù)質(zhì)量問題,提升數(shù)據(jù)質(zhì)量檢核效率。數(shù)據(jù)質(zhì)量工具在采集到的數(shù)據(jù)模型元數(shù)據(jù)的基礎(chǔ)上,通過配置自動(dòng)生成檢核規(guī)則的腳本,并通過設(shè)置數(shù)據(jù)質(zhì)量檢核任務(wù)的運(yùn)行周期,定時(shí)檢核數(shù)據(jù)質(zhì)量問題,并將數(shù)據(jù)質(zhì)量問題數(shù)據(jù)保存到系統(tǒng)中,便于用戶進(jìn)行查看和定位問題。
5)提升意識、主動(dòng)管理:數(shù)據(jù)質(zhì)量管理工作需要提升全員數(shù)據(jù)質(zhì)量意識,形成組織數(shù)據(jù)治理的文化氛圍。數(shù)據(jù)使用方發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題后,及時(shí)主動(dòng)的進(jìn)行問題的上報(bào),避免數(shù)據(jù)問題對業(yè)務(wù)造成影響。數(shù)據(jù)責(zé)任人接到問題通知后,應(yīng)主動(dòng)配合數(shù)據(jù)管理部門進(jìn)行問題整改。數(shù)據(jù)管理部門應(yīng)該從事前預(yù)防數(shù)據(jù)問題出發(fā),制定企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)并加強(qiáng)宣貫,減少因?yàn)槿鄙俳y(tǒng)一的標(biāo)準(zhǔn)、規(guī)范導(dǎo)致數(shù)據(jù)質(zhì)量問題。
4、數(shù)據(jù)質(zhì)量管理框架及關(guān)鍵技術(shù)
在“五個(gè)原則”的指導(dǎo)下開展數(shù)據(jù)質(zhì)量提升工作,從系統(tǒng)層面需要制定數(shù)據(jù)質(zhì)量管理的功能框架。數(shù)據(jù)質(zhì)量系統(tǒng)應(yīng)具備數(shù)據(jù)質(zhì)量規(guī)則管理、檢核腳本管理、任務(wù)管理、檢核結(jié)果管理、數(shù)據(jù)質(zhì)量報(bào)告等功能,以度量規(guī)則和檢核腳本管理為主線,通過自身任務(wù)管理模塊或者第三方調(diào)度為觸發(fā)點(diǎn),幫助企業(yè)建立統(tǒng)一的數(shù)據(jù)質(zhì)量管理工具。
從系統(tǒng)實(shí)現(xiàn)的角度上,要解決三個(gè)關(guān)鍵技術(shù)。
1、檢核腳本的自動(dòng)生成。數(shù)據(jù)質(zhì)量檢核實(shí)際上是按照腳本執(zhí)行并篩選出有問題的數(shù)據(jù)。隨著數(shù)據(jù)質(zhì)量度量規(guī)則的增多,通過人為手工編寫腳本的方式就無法應(yīng)對快速增加的度量規(guī)則,通常一個(gè)中等規(guī)模的金融企業(yè),就具備上千條度量規(guī)則。因此通過配置的方式,利用腳本生成引擎自動(dòng)生成檢核腳本,是數(shù)據(jù)質(zhì)量工具必須具備的功能。
2、多線程檢核架構(gòu)。檢核腳本的執(zhí)行時(shí)間是影響能夠及時(shí)查看到數(shù)據(jù)質(zhì)量問題的另一個(gè)關(guān)鍵因素。在腳本執(zhí)行過程中,需要采用多線程并發(fā)來執(zhí)行保證在較短的時(shí)間內(nèi)檢核出有問題的數(shù)據(jù)。
3、數(shù)據(jù)質(zhì)量報(bào)告。數(shù)據(jù)質(zhì)量報(bào)告是對企業(yè)數(shù)據(jù)質(zhì)量情況的總結(jié)分析,需要能夠從不同維度系統(tǒng)、部門、檢核類別等維度生成固定數(shù)據(jù)質(zhì)量報(bào)告。還需要支持按照選擇的數(shù)據(jù)質(zhì)量規(guī)則,時(shí)間等條件,來生成個(gè)性化的數(shù)據(jù)質(zhì)量報(bào)告。
5、數(shù)據(jù)質(zhì)量管理的最佳實(shí)踐
為實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的切實(shí)落地,推進(jìn)數(shù)據(jù)質(zhì)量問題的有效解決,某銀行將數(shù)據(jù)質(zhì)量問題考核作為重中之重,將數(shù)據(jù)質(zhì)量問題解決效果與部門KPI掛鉤,減小了數(shù)據(jù)質(zhì)量整改的難度,為數(shù)據(jù)質(zhì)量的推進(jìn)提供驅(qū)動(dòng)力,能夠及時(shí)對發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題進(jìn)行處理。該銀行的數(shù)據(jù)質(zhì)量工作開展,分為了三個(gè)階段:
第一階段:搭建數(shù)據(jù)質(zhì)量系統(tǒng)。借助數(shù)據(jù)質(zhì)量管理系統(tǒng)自動(dòng)對數(shù)據(jù)倉庫進(jìn)行檢核, 摸清數(shù)據(jù)質(zhì)量情況,解決技術(shù)原因?qū)е聰?shù)據(jù)質(zhì)量問題。
第二階段:定位問題責(zé)任主體。將數(shù)據(jù)質(zhì)量問題檢核提前到業(yè)務(wù)系統(tǒng)中來,將問題數(shù)據(jù)所在分行業(yè)務(wù)數(shù)據(jù)錄入人一并獲取到數(shù)據(jù)質(zhì)量管理平臺,從而為數(shù)據(jù)質(zhì)量問題的追本溯源奠定了技術(shù)基礎(chǔ)。
第三階段:成立數(shù)據(jù)質(zhì)量考核評價(jià)小組。為保證已發(fā)現(xiàn)的業(yè)務(wù)原因?qū)е碌膯栴}能得到有效地解決,設(shè)計(jì)出了分層級的考核體系,由數(shù)據(jù)質(zhì)量考核評價(jià)小組對各家分行數(shù)據(jù)質(zhì)量問題的解決情況進(jìn)行打分,計(jì)入各家分行的KPI績效考核中。
在后續(xù)數(shù)據(jù)質(zhì)量系統(tǒng)的運(yùn)行,開展對銀行內(nèi)部多個(gè)業(yè)務(wù)部門進(jìn)行了考核,考核范圍包括多個(gè)重要的業(yè)務(wù)系統(tǒng),并檢核出了各家分行的多項(xiàng)數(shù)據(jù)問題,大大提升了數(shù)據(jù)質(zhì)量問題的修改率,整改的數(shù)據(jù)問題數(shù)據(jù)涉及到超過數(shù)千億的貸款額度。
參考文獻(xiàn):
[1]DAMA-DMBOK2數(shù)據(jù)管理知識體系指南.機(jī)械工業(yè)出版社2020.5
[2]劉慶會(huì).大數(shù)據(jù)是否值得信賴——淺談商業(yè)銀行如何提升數(shù)據(jù)質(zhì)量 [EB/OL], 2016-04-14
[3] 賈讓.治河三策千古鑒.河北水利,2016(2):36-36
責(zé)任編輯:xj
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
6898瀏覽量
88838 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4693瀏覽量
71958 -
人工智能
+關(guān)注
關(guān)注
1791文章
46872瀏覽量
237599
發(fā)布評論請先 登錄
相關(guān)推薦
評論