數(shù)據(jù)驅(qū)動是通過先進(jìn)的IT技術(shù)和人工智能對企業(yè)的數(shù)據(jù)資產(chǎn)進(jìn)行有效和充分的利用,其目的是從數(shù)據(jù)中獲得有價(jià)值的“洞見”,以指導(dǎo)人們作出更加科學(xué)的決策和更加有效的行動。
企業(yè)數(shù)字化轉(zhuǎn)型離不開數(shù)據(jù)驅(qū)動,而數(shù)據(jù)驅(qū)動的基礎(chǔ)是建立在高質(zhì)量數(shù)據(jù)之上的。沒有高質(zhì)量數(shù)據(jù),就不可能產(chǎn)生有價(jià)值的洞見。
數(shù)據(jù)驅(qū)動的企業(yè)看著似乎很厲害的樣子,實(shí)際上他們一直也在為數(shù)據(jù)質(zhì)量問題而苦苦掙扎。數(shù)據(jù)的不完整、不準(zhǔn)確、不一致,數(shù)據(jù)安全、數(shù)據(jù)隱私等問題似乎是無窮盡的,成為了企業(yè)數(shù)字化轉(zhuǎn)型的一個(gè)難以逾越的障礙。
1
從DIKW金字塔模型到數(shù)據(jù)供應(yīng)鏈
要實(shí)現(xiàn)數(shù)據(jù)驅(qū)動,重要的是創(chuàng)建一個(gè)“數(shù)據(jù)供應(yīng)鏈”,保證數(shù)據(jù)在從生產(chǎn)、采集、存儲、加工、處理,到分析、應(yīng)用的全過程中的數(shù)據(jù)質(zhì)量,并且確保每個(gè)過程都是為業(yè)務(wù)目標(biāo)而服務(wù)的。
供應(yīng)鏈的概念的是從生產(chǎn)制造行業(yè)發(fā)展衍生出來的,它將企業(yè)的生產(chǎn)活動進(jìn)行了前伸和后延。艾倫·哈理森(Harrison)將供應(yīng)鏈定義為:“供應(yīng)鏈?zhǔn)菆?zhí)行采購原材料,將它們轉(zhuǎn)換為中間產(chǎn)品和成品,并且將成品銷售到用戶的功能網(wǎng)鏈。”日本豐田公司的精益協(xié)作方式中就將供應(yīng)商的活動視為生產(chǎn)活動的有機(jī)組成部分而加以控制和協(xié)調(diào)。
數(shù)字化世界,數(shù)據(jù)既是產(chǎn)品也是原料,DIKW金字塔模型足以說明這個(gè)觀點(diǎn)。在DIKW模型中,數(shù)據(jù)是用來描述事實(shí)和現(xiàn)象的原始的資料,是無組織的事實(shí)。將原始的、無序的、雜亂的數(shù)據(jù)進(jìn)行收集和整理,并從中提取有用的信息,讓數(shù)據(jù)變得更加有意義;再將信息加工、萃取成可被傳播、沉淀、復(fù)用的知識,從而獲得更大的價(jià)值;而智慧是DIKW層次結(jié)構(gòu)的最高層,是將知識應(yīng)用于行動后產(chǎn)生的結(jié)果,回答的是諸如“為什么要做”和“什么是最好的”之類的問題。
DIKW模型,反映了數(shù)據(jù)被加工、提煉的一個(gè)過程,這個(gè)過程本質(zhì)上來說也是從數(shù)據(jù)需求到數(shù)據(jù)供給的過程。通過這個(gè)過程,原始的數(shù)據(jù)進(jìn)入企業(yè),經(jīng)過各種處理、轉(zhuǎn)換,成為可供人們使用的有價(jià)值的東西,我們將這個(gè)過程稱之為數(shù)據(jù)供應(yīng)鏈。
如上圖所示,數(shù)據(jù)供應(yīng)鏈與生產(chǎn)供應(yīng)鏈?zhǔn)窒嗨疲?ldquo;原料數(shù)據(jù)”從系統(tǒng)的一端輸入,然后在下一步中進(jìn)行分析和轉(zhuǎn)換。最后,它作為一組有意義、有價(jià)值的“數(shù)據(jù)產(chǎn)品”提供出來,用于企業(yè)業(yè)務(wù)流程的改進(jìn)和指導(dǎo)企業(yè)管理決策。進(jìn)入數(shù)據(jù)供應(yīng)鏈的數(shù)據(jù)來自各種來源,如企業(yè)的各類信息系統(tǒng)ERP、CRM、移動應(yīng)用程序等;企業(yè)外部的網(wǎng)站、社交網(wǎng)絡(luò)、電商平臺等;以及來自設(shè)備物聯(lián)數(shù)據(jù),各類傳感器產(chǎn)生的時(shí)序數(shù)據(jù)等。這個(gè)過程,也是實(shí)施數(shù)據(jù)治理,提升數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化的過程。
2
供給側(cè):重點(diǎn)關(guān)注的數(shù)據(jù)質(zhì)量維度
數(shù)據(jù)質(zhì)量問題貫穿整個(gè)“數(shù)據(jù)供應(yīng)鏈”。我們經(jīng)常聽到:“垃圾進(jìn),垃圾出”,這句話是指高質(zhì)量數(shù)據(jù)分析結(jié)果,取決于高質(zhì)量的數(shù)據(jù)輸入,輸入的數(shù)據(jù)質(zhì)量低下,數(shù)據(jù)分析結(jié)果也叫沒有什么價(jià)值。以及筆者經(jīng)常提的“數(shù)據(jù)治理要從源頭抓起”,也是說的這個(gè)意思。重點(diǎn)都在強(qiáng)調(diào)數(shù)據(jù)供給側(cè)保障數(shù)據(jù)質(zhì)量的重要性。數(shù)據(jù)供給側(cè)更多的是站在數(shù)據(jù)生產(chǎn)者或數(shù)據(jù)管理者的角度看數(shù)據(jù)質(zhì)量的,重點(diǎn)關(guān)注以下的5個(gè)數(shù)據(jù)質(zhì)量維度。
1
數(shù)據(jù)完整性
數(shù)據(jù)完整性體現(xiàn)在三個(gè)方面:
元數(shù)據(jù)的完整性
例如:唯一性約束完整性、參照完整性等;
數(shù)據(jù)條目完整性
例如:數(shù)據(jù)記錄丟失或不可用會影響數(shù)據(jù)的完整性;
數(shù)據(jù)屬性完整性
例如:數(shù)據(jù)屬性空值情況等。
2
數(shù)據(jù)準(zhǔn)確性
數(shù)據(jù)的準(zhǔn)確性也叫數(shù)據(jù)可靠性,狹義上的數(shù)據(jù)準(zhǔn)確性是用于分析、識別和度量哪些是不準(zhǔn)確的或無效的數(shù)據(jù)的。
3
數(shù)據(jù)一致性
數(shù)據(jù)一致性主要體現(xiàn)在兩個(gè)方面:
多源數(shù)據(jù)的數(shù)據(jù)模型不一致
例如:命名不一致、數(shù)據(jù)結(jié)構(gòu)不一致、約束規(guī)則不一致。
數(shù)據(jù)實(shí)體不一致
例如:數(shù)據(jù)編碼不一致、命名及含義不一致、分類層次不一致、生命周期不一致……。相同的數(shù)據(jù)有多個(gè)副本的情況下的數(shù)據(jù)不一致、數(shù)據(jù)內(nèi)容沖突等問題。
4
數(shù)據(jù)唯一性
數(shù)據(jù)唯一性是用于識別和度量重復(fù)數(shù)據(jù)、冗余數(shù)據(jù)。重復(fù)數(shù)據(jù)是導(dǎo)致業(yè)務(wù)無法協(xié)同、流程無法追溯的重要因素,也是數(shù)據(jù)治理需要解決的最基本的數(shù)據(jù)質(zhì)量問題。
5
數(shù)據(jù)有效性
數(shù)據(jù)有效性用于度量數(shù)據(jù)是否符合既定的條件,不符合條件的視為無效數(shù)據(jù)。例如:在統(tǒng)計(jì)當(dāng)前在職的職工人數(shù)時(shí),數(shù)據(jù)集中的已離職人員應(yīng)當(dāng)被剔除出去。
低下的數(shù)據(jù)質(zhì)量是實(shí)現(xiàn)數(shù)據(jù)賦能、數(shù)據(jù)驅(qū)動的頭號敵人,只有提高供給側(cè)的數(shù)據(jù)質(zhì)量,才能保證輸出的數(shù)據(jù)服務(wù)或數(shù)據(jù)應(yīng)用是有價(jià)值的。當(dāng)然,供給是由需求驅(qū)動的,以上5個(gè)數(shù)據(jù)治理維度同樣也適用于需求側(cè),這5個(gè)維度也是廣義上的數(shù)據(jù)準(zhǔn)確性。
3
需求側(cè):超越準(zhǔn)確性的數(shù)據(jù)質(zhì)量維度
從數(shù)據(jù)供給側(cè)(生產(chǎn)和管理的角度)來看,數(shù)據(jù)質(zhì)量主要關(guān)注準(zhǔn)確性。其目標(biāo)是盡可能地將數(shù)據(jù)與現(xiàn)實(shí)世界的實(shí)體相匹配。通過實(shí)施數(shù)據(jù)清理、修復(fù)數(shù)據(jù)、轉(zhuǎn)換等一系列數(shù)據(jù)管理工作旨在提高數(shù)據(jù)準(zhǔn)確性。
如果我們將視角切換至“數(shù)據(jù)供應(yīng)鏈”的需求側(cè),也就是站在數(shù)據(jù)消費(fèi)者、業(yè)務(wù)人員(下文統(tǒng)稱:數(shù)據(jù)用戶)的角度看,人們對數(shù)據(jù)質(zhì)量的需求將超越準(zhǔn)確性,并在此基礎(chǔ)之上增加三個(gè)維度,
可訪問性
對數(shù)據(jù)用戶來講,最核心的需求是當(dāng)他們需要用數(shù)據(jù)的時(shí)候,這些數(shù)據(jù)是可以被訪問的。他們想知道企業(yè)有哪些數(shù)據(jù)?存放在哪里?以及如何訪問到這些數(shù)據(jù)?我們看到很多數(shù)據(jù)平臺提供的統(tǒng)一數(shù)據(jù)資源目錄功能就是解決這個(gè)問題的。
及時(shí)性
數(shù)據(jù)的價(jià)值在于能夠被使用,如果不能及時(shí)使用,可訪問的數(shù)據(jù)就沒有價(jià)值。及時(shí)性定義了數(shù)據(jù)在需要時(shí)是否可用,過期的數(shù)據(jù)帶來的結(jié)果可能是誤導(dǎo)或誤判,保證數(shù)據(jù)的及時(shí)性在一定程度上是保證業(yè)務(wù)創(chuàng)新性和前瞻性的基礎(chǔ)。與實(shí)時(shí)性相比,及時(shí)性強(qiáng)調(diào)在需要時(shí)間內(nèi)準(zhǔn)時(shí)送達(dá),它可以是實(shí)時(shí)的,也可以是定時(shí)的,但一定是準(zhǔn)時(shí)的,發(fā)生在你需要的時(shí)候。
相關(guān)性
當(dāng)數(shù)據(jù)的可訪問性和及時(shí)性得到滿足,用戶很大程度都會將關(guān)注度放到相關(guān)性上來。數(shù)據(jù)的相關(guān)性是指數(shù)據(jù)之間,或數(shù)據(jù)與用戶之間的某種關(guān)聯(lián)關(guān)系,例如:函數(shù)關(guān)系、相關(guān)系數(shù)、主外鍵關(guān)系、索引關(guān)系等。我們在數(shù)據(jù)治理過程中經(jīng)常說的相關(guān)性問題,就是指數(shù)據(jù)間或數(shù)據(jù)與用戶間的關(guān)聯(lián)關(guān)系缺失或錯(cuò)誤,這可能會導(dǎo)致用戶將大量的精力放在了不相關(guān)的數(shù)據(jù)上,或者引發(fā)出的數(shù)據(jù)準(zhǔn)確性問題。
及時(shí)的、準(zhǔn)確的、可信且可訪問的數(shù)據(jù)是業(yè)務(wù)和管理的基礎(chǔ),是數(shù)據(jù)驅(qū)動的靈魂,需要站在完整個(gè)“數(shù)據(jù)供應(yīng)鏈”的全局視角來制定考量數(shù)據(jù)質(zhì)量的策略,這一過程需要數(shù)據(jù)生產(chǎn)者、管理者、使用者共同參與其中。數(shù)據(jù)生產(chǎn)者和使用者必須定義出需要什么樣的數(shù)據(jù),什么數(shù)據(jù)對業(yè)務(wù)是重要的,而數(shù)據(jù)的管理者必須專注于提供業(yè)務(wù)所需的重要數(shù)據(jù)。
4
提升企業(yè)數(shù)據(jù)質(zhì)量的8點(diǎn)建議
1
業(yè)務(wù)需求和影響評估
數(shù)據(jù)質(zhì)量改進(jìn)的驅(qū)動因素永遠(yuǎn)來自業(yè)務(wù)目標(biāo),不能脫離業(yè)務(wù)需求談數(shù)據(jù)質(zhì)量。制定數(shù)據(jù)質(zhì)量改進(jìn)方案的基礎(chǔ),首先是清晰定義業(yè)務(wù)需求,然后是根據(jù)業(yè)務(wù)需求對企業(yè)業(yè)務(wù)的長期影響來定義數(shù)據(jù)質(zhì)量問題的優(yōu)先級。衡量業(yè)務(wù)影響、定義問題優(yōu)先級有助于明確治理目標(biāo)并跟進(jìn)數(shù)據(jù)質(zhì)量改進(jìn)的進(jìn)度。
2
全面盤點(diǎn)和正確描述
全面的數(shù)據(jù)盤不僅可以幫助您回答:有哪些數(shù)據(jù),數(shù)據(jù)在哪里,以及如何訪問數(shù)據(jù)等問題。同時(shí),也能夠幫助您正確理解數(shù)據(jù),例如:數(shù)據(jù)描述了什么,數(shù)據(jù)對業(yè)務(wù)的價(jià)值在哪里,以及如何獲得最大價(jià)值。當(dāng)您需要確定數(shù)據(jù)是否“準(zhǔn)確”或是否滿足業(yè)務(wù)所需的時(shí)候,全面的數(shù)據(jù)盤點(diǎn)和對數(shù)據(jù)的正確描述,是您理解數(shù)據(jù)和提升數(shù)據(jù)質(zhì)量的有效方法。
3
數(shù)據(jù)質(zhì)量從源頭抓起
“從源頭解決數(shù)據(jù)質(zhì)量問題”是筆者一直秉承的觀點(diǎn)。但很多時(shí)候,我們依然看到一些數(shù)據(jù)治理項(xiàng)目將治理重點(diǎn)放在了數(shù)據(jù)副本上,例如通過修復(fù)副本中的錯(cuò)誤或建立各種映射表,以支持下一步的數(shù)據(jù)分析。其實(shí),這是一種“治標(biāo)不治本”的做法,原始數(shù)據(jù)集仍然存在質(zhì)量問題,影響其后續(xù)使用。從源頭解決數(shù)據(jù)質(zhì)量問題是提高數(shù)據(jù)質(zhì)量、防止不良數(shù)據(jù)傳播的最佳方法。
正如Gartner專家說:一個(gè)數(shù)據(jù)的生命周期有兩個(gè)有趣的時(shí)刻,創(chuàng)建時(shí)刻和使用時(shí)刻。如果您可以在創(chuàng)建數(shù)據(jù)時(shí)最大限度地減少錯(cuò)誤并始終從源頭解決質(zhì)量問題,那么就可以確保使用時(shí)的數(shù)據(jù)質(zhì)量。
4
能選擇的時(shí)候別輸入
形成可供選擇的值域,是一個(gè)有效避免人為因素錯(cuò)誤、提升數(shù)據(jù)質(zhì)量的操作性技巧。當(dāng)用戶以不同的形式輸入數(shù)據(jù)的時(shí)候,難免發(fā)生一些“人為”的錯(cuò)誤,例如:輸入的數(shù)據(jù)多一個(gè)空格,大小寫,簡繁體,特殊符合不規(guī)范使用等常見數(shù)據(jù)質(zhì)量問題。解決這個(gè)問題的有效方法是為這些數(shù)據(jù)定義好標(biāo)準(zhǔn)數(shù)據(jù)值域/值集(或稱數(shù)據(jù)字典),以避免用戶的輸入錯(cuò)誤。
5
建立數(shù)據(jù)驅(qū)動的文化
事實(shí)上,數(shù)據(jù)驅(qū)動也能夠反作用于數(shù)據(jù)質(zhì)量。在企業(yè)中,建立數(shù)據(jù)驅(qū)動的文化和行為規(guī)范,更好地使用數(shù)據(jù),能夠反向促進(jìn)數(shù)據(jù)質(zhì)量的提升。數(shù)據(jù)驅(qū)動文化是“數(shù)據(jù)質(zhì)量、人人有責(zé)”的文化,在企業(yè)范圍內(nèi)對數(shù)據(jù)需求定義、數(shù)據(jù)質(zhì)量目標(biāo)達(dá)成共識,以便持續(xù)推進(jìn)數(shù)據(jù)質(zhì)量問題的改進(jìn)和優(yōu)化。
6
DataOps——數(shù)據(jù)運(yùn)營
DataOps是將DevOps的理念延伸到了數(shù)據(jù)領(lǐng)域,提供了一種更加自動化的數(shù)據(jù)運(yùn)營方式,以提高數(shù)據(jù)分析的質(zhì)量和敏捷性。DevOps是建立在3個(gè)原則之上:持續(xù)集成、持續(xù)交付和持續(xù)部署,對應(yīng)到DataOps就是利用自動化數(shù)據(jù)管理工具,實(shí)現(xiàn)數(shù)據(jù)的數(shù)據(jù)的發(fā)現(xiàn)、集成和準(zhǔn)備自動化,并支持?jǐn)?shù)據(jù)質(zhì)量的持續(xù)測量,在整個(gè)企業(yè)范圍內(nèi)持續(xù)交付準(zhǔn)確、可信的數(shù)據(jù)。
7
數(shù)據(jù)質(zhì)量,防大于治
數(shù)據(jù)質(zhì)量管理不僅僅在于糾正當(dāng)前的數(shù)據(jù)質(zhì)量問題,還在于防止未來的發(fā)生類似數(shù)據(jù)質(zhì)量問題。評估和解決企業(yè)數(shù)據(jù)質(zhì)量問題的根本原因是預(yù)防問題發(fā)生的關(guān)鍵。例如:是否正確定義了業(yè)務(wù)需求以及對應(yīng)的數(shù)據(jù)質(zhì)量指標(biāo)?業(yè)務(wù)流程是手動的還是自動化的?數(shù)據(jù)質(zhì)量的利益相關(guān)者能否直接參與數(shù)據(jù)質(zhì)量問題的解決?企業(yè)的數(shù)據(jù)驅(qū)動文化是否牢固到位?
8
數(shù)據(jù)質(zhì)量成效評估
定期對企業(yè)的數(shù)據(jù)質(zhì)量改進(jìn)情況進(jìn)行成效評估,有利于提升數(shù)據(jù)治理的成熟度,并為下一階段的數(shù)據(jù)質(zhì)量改進(jìn)提供參考依據(jù)。與相關(guān)部門、相關(guān)人員就數(shù)據(jù)質(zhì)量問題、產(chǎn)生的原因、采取的措施、改進(jìn)的結(jié)果進(jìn)行交流,讓更多的人將積極參與到數(shù)據(jù)質(zhì)量改進(jìn)中來,進(jìn)一步鞏固企業(yè)的數(shù)據(jù)文化。
總結(jié)
數(shù)據(jù)驅(qū)動是依靠數(shù)據(jù)來賦能決策和運(yùn)營,高質(zhì)量數(shù)據(jù)無疑是實(shí)現(xiàn)數(shù)據(jù)驅(qū)動的保證。高質(zhì)量數(shù)據(jù)意味著高質(zhì)量的洞察力、值得信賴的分析報(bào)告,可優(yōu)化的業(yè)務(wù)流程,更加良好的客戶體驗(yàn)和更好的投資回報(bào)率。