久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

深度解析對(duì)數(shù)據(jù)質(zhì)量維度的理解

 數(shù)據(jù)治理精英館 2025-01-15 發(fā)布于浙江

數(shù)據(jù)質(zhì)量維度有6個(gè),或者有4個(gè),,還或者有 15 個(gè),!

談到數(shù)據(jù)質(zhì)量,人們喜歡談?wù)摂?shù)據(jù)質(zhì)量的“維度”,。如果這讓你覺得“數(shù)據(jù)質(zhì)量維度”確實(shí)存在某種得到廣泛認(rèn)可的定義,,這是可以理解的。不幸的是,,的確沒有,。在本文中,我們將探討如何利用數(shù)據(jù)質(zhì)量維度以及為什么沒有任何通用的維度,。

DAMA描述了六個(gè)數(shù)據(jù)質(zhì)量維度。DAMA代表國(guó)際數(shù)據(jù)管理協(xié)會(huì)(Data Management Association International),,他們提出這些維度是因?yàn)閿?shù)據(jù)質(zhì)量的維度非常多以致令人困惑,。因此,如果您要將任何定義描述為“廣泛認(rèn)可的”,,這可能是最佳候選,。

“數(shù)據(jù)質(zhì)量評(píng)估的六個(gè)主要維度:定義數(shù)據(jù)質(zhì)量維度”,DAMA 英國(guó)工作組,,2013 年 10 月,。

谷歌搜索一下即可發(fā)現(xiàn),用 6 個(gè)維度來描述數(shù)據(jù)質(zhì)量非常流行,。但它們和 DAMA 的 6 個(gè)維度一樣嗎,?

我們將從一些主要的數(shù)據(jù)質(zhì)量管理廠商開始,,他們專門開發(fā)了一個(gè)頁(yè)面來介紹他們對(duì)數(shù)據(jù)質(zhì)量維度的想法。

Informatica 和 precise.io 使用與 DAMA 完全相同的維度,,如下所示,。

接下來是 Experian 和 Talend,它們都保留了 DAMA 的六個(gè)維度,。

盡管兩者都為同一個(gè)術(shù)語添加了不同的澄清性附加內(nèi)容,,但不是同一個(gè)術(shù)語。而且這些澄清性術(shù)語也被其他來源用作維度,,其定義與此處配對(duì)的術(shù)語不同,。

我們?cè)賮砜纯戳硪粋€(gè)供應(yīng)商Collibra:

他們把 DAMA 的一個(gè)維度完全換成了另一個(gè)維度,完整性取代及時(shí)性,。這一趨勢(shì)仍在繼續(xù),。咨詢公司德勤使用 DAMA 的維度,但普華永道用“完整性”取代了“獨(dú)特性”,。

規(guī)模較小的咨詢公司也不會(huì)感到受到 DAMA 的束縛,。Smartbridge 和 Idenhaus 都只有四個(gè)維度與 DAMA 相同,而 Idenhaus 決定總體上只采用五個(gè)維度,。

但是,!這些都是顧問和供應(yīng)商,理論并不總是能轉(zhuǎn)化為實(shí)踐,。

人們?cè)跀?shù)據(jù)質(zhì)量維度度量方面究竟在做什么,?

出于某種原因,企業(yè)不喜歡將其內(nèi)部文件放到互聯(lián)網(wǎng)上,,因此我們關(guān)注一些國(guó)家的政府如何看待數(shù)據(jù)質(zhì)量,。

讓我們從美國(guó)開始吧。

美國(guó)司法部有 4 項(xiàng)核心數(shù)據(jù)質(zhì)量指標(biāo),,另外還有 10 項(xiàng)建議的“背景維度”,,這些維度可能適用于也可能不適用于任何給定的數(shù)據(jù)。勞工統(tǒng)計(jì)局緊隨其后,,有 6 項(xiàng)指標(biāo),。而內(nèi)政部則有 11 項(xiàng)。

在澳大利亞,,澳大利亞統(tǒng)計(jì)局認(rèn)可七個(gè)數(shù)據(jù)質(zhì)量維度,。維多利亞州也認(rèn)可七個(gè),但其中五個(gè)與澳大利亞統(tǒng)計(jì)局的七個(gè)不同,。它們共同的兩個(gè)維度來自 DAMA,。

加拿大政府,它在兩個(gè)不同的地方使用了同一套 6 個(gè)維度。但是,,當(dāng)我們查看國(guó)家污染物排放清單時(shí),,發(fā)現(xiàn)統(tǒng)一性不強(qiáng),它有七個(gè)維度,,其中只有四個(gè)與另一套共享,。距離如此接近,卻又如此遙遠(yuǎn),。

學(xué)術(shù)界對(duì)數(shù)據(jù)質(zhì)量維度的理解多種多樣,,從 Wand & Wang (1994) 的四個(gè)“內(nèi)在維度”到 Pipino、Lee 和 Yang (2002) 的 16 個(gè)維度,。

Jayawardene,、Sadiq 和 Indulska 似乎在八個(gè)維度的“主要交集”上取得了平衡,但其中三個(gè)維度的名稱由兩部分組成,,而名稱的兩個(gè)部分肯定被其他人用作單獨(dú)的維度,,因此可以說這 8 個(gè)維度也可以被視為 11 個(gè)維度。

這里究竟發(fā)生了什么事,?

造成這種情況的原因如下:人們?cè)诰幵焓聦?shí),。

他們必須這樣做。數(shù)據(jù)質(zhì)量維度并非基于任何可以普遍應(yīng)用于數(shù)據(jù)集或行業(yè)的具體概念,。物理空間的三個(gè)維度是真實(shí)的,,而數(shù)據(jù)質(zhì)量的維度則不是。

相反,,數(shù)據(jù)質(zhì)量維度是極具可塑性的概念,,普通營(yíng)銷人員、經(jīng)理,、研究人員可以將其塑造成他們想要的任何形式,。

當(dāng)您試圖將數(shù)據(jù)質(zhì)量維度視為超出其本身的東西時(shí),就會(huì)出現(xiàn)問題,。它們是一種靈活的工具,,可用于從多個(gè)方面思考和表示數(shù)據(jù)質(zhì)量;它們不是數(shù)據(jù)的一些基本屬性,。

您需要知道為什么以及如何使用數(shù)據(jù)質(zhì)量維度,。您不能只是從互聯(lián)網(wǎng)上抓取一份列表然后就可以了。

如果維度不是真實(shí)的,,為什么要使用維度?

以下是使用數(shù)據(jù)質(zhì)量維度的三個(gè)主要原因:

  • 聽起來很酷,。

  • 它們是一種有用的框架,。

  • 它們幫助匯總結(jié)果。

我們現(xiàn)在將對(duì)每一個(gè)問題進(jìn)行討論。

1.維度讓你聽起來很酷

“聽起來很酷”是數(shù)據(jù)質(zhì)量維度的合理用法,。如果你想正式一點(diǎn),,你也可以將其描述為“內(nèi)部數(shù)據(jù)質(zhì)量管理”。

如果您正在研究數(shù)據(jù)質(zhì)量,,那么您可能深信它的價(jià)值,。您還了解它是什么:您的數(shù)據(jù)存在哪些類型的問題,具體示例有哪些,,它會(huì)產(chǎn)生哪些影響,,以及它為什么重要。

您的組織中有很多員工對(duì)此一無所知,,也不關(guān)心。不幸的是,,您可能需要他們的幫助:

  • 也許他們是某個(gè)主題的專家,您需要他們抽出時(shí)間與您討論要?jiǎng)?chuàng)建哪些業(yè)務(wù)規(guī)則,。

  • 也許他們是另一位經(jīng)理,而您需要他們的同意才能改變其部門的某個(gè)流程,。

  • 也許他們是副總裁,你需要他們簽字同意給你一大筆錢,。

  • 也許他們是首席信息官,你需要他們簽字同意你繼續(xù)工作,。

以下哪一個(gè)更好:

選項(xiàng) A:你向他們解釋數(shù)據(jù)質(zhì)量,。你舉了幾個(gè)數(shù)據(jù)質(zhì)量差的例子,并說明了它對(duì)組織的影響,。你描述了你所遇到的數(shù)據(jù)質(zhì)量差的累積影響,。有太多的文字了。

選項(xiàng) B:你向他們展示一張圖表,,標(biāo)題聽起來很有意義,,叫做“數(shù)據(jù)質(zhì)量維度”,。它為每個(gè)維度都提供了漂亮但又令人震驚的指標(biāo),顯示了你的公司存在哪些不足,,只有給你時(shí)間、投入,、現(xiàn)金,、人員才能挽救它。每個(gè)維度都是一個(gè)單詞,,絕大多數(shù)觀眾在腦海中已經(jīng)對(duì)它有了印象,。

當(dāng)然,這是一個(gè)棘手的問題,,答案是“兩者兼而有之”,。假設(shè)你能讓其他人注意到你。但這是一個(gè)很大的假設(shè),。如果您想與某個(gè)人溝通,,而他整個(gè)會(huì)議期間都在打電話,或者不愿意閱讀超過一句話的電子郵件,,那么您就需要維度,。

看到這些,,您可能會(huì)想:這些維度與您的無維度示例完全相同,,但表述得更簡(jiǎn)潔。

是的,。確實(shí)如此,。您正在使用數(shù)據(jù)質(zhì)量維度作為工具,,以在公司內(nèi)部建立對(duì)數(shù)據(jù)質(zhì)量和項(xiàng)目的理解和支持,。

2.維度是一個(gè)框架

即使對(duì)于相對(duì)簡(jiǎn)單的數(shù)據(jù)集,數(shù)據(jù)質(zhì)量也可能很復(fù)雜。對(duì)于復(fù)雜的數(shù)據(jù),,需要跟蹤的內(nèi)容很多。

數(shù)據(jù)質(zhì)量維度可幫助您將所有內(nèi)容劃分為更易于管理的部分,,因此您可以深入考慮不同的角度,,而不會(huì)忽略其他所有內(nèi)容,。

對(duì)您來說最重要的維度取決于使用數(shù)據(jù)的目的,、面臨的挑戰(zhàn)是什么以及如何概念化一切,。

當(dāng)然,,你可能會(huì)說,,至少有一個(gè)維度是大家都同意的標(biāo)準(zhǔn),。比如準(zhǔn)確性,。這幾乎是正確的,,但事實(shí)并非如此,。例如,有些資料將“準(zhǔn)確性”定義為“正確性”,。也許你可以將其視為純粹的語義差異,。

但對(duì)于反例,,我們看看美國(guó) DOI 的數(shù)據(jù)質(zhì)量管理指南,。該指南有 11 個(gè)維度,。其中兩個(gè)維度是“準(zhǔn)確貼近現(xiàn)實(shí)”和“準(zhǔn)確貼近替代來源”,。好的,。那么,,我們之前所說的“準(zhǔn)確性”或“正確性”是什么意思呢,?你想象中的可能是“準(zhǔn)確貼近現(xiàn)實(shí)”,。

但 DOI 還會(huì)考慮“數(shù)據(jù)與原始數(shù)據(jù)來源(如表格,、申請(qǐng)或其他文檔)的匹配程度”。給出的不“準(zhǔn)確替代來源”數(shù)據(jù)示例是“申請(qǐng)表上報(bào)告的申請(qǐng)人收入與數(shù)據(jù)庫(kù)中的收入不匹配”,。

您可能會(huì)說,,這當(dāng)然可能是“一致性”??赡苁恰5珜?duì)于 DOI 來說,情況并非如此,!DOI 的一致性是指數(shù)據(jù)是否與 DOI 自己的數(shù)據(jù)庫(kù)相匹配,。

很容易想象這樣的場(chǎng)景:與 DOI 一致的數(shù)據(jù)在一個(gè)或兩個(gè)準(zhǔn)確性維度上都失敗了,。

想象一下,,DOI 在其所有數(shù)據(jù)庫(kù)中將您去年的收入記錄為相同的數(shù)字:它是一致的,。

但現(xiàn)在你找到了一份薪水更高的新工作,,所以你在今年的表格上寫下了這一點(diǎn),。數(shù)據(jù)庫(kù)現(xiàn)在對(duì)于替代來源并不準(zhǔn)確。但你沒有算上周末在餐館打工的私下收入?,F(xiàn)在數(shù)據(jù)庫(kù)在替代數(shù)據(jù)來源和現(xiàn)實(shí)情況方面都不準(zhǔn)確,。

通過一個(gè)表單字段,,您會(huì)以兩種不同的方式使 DOI 數(shù)據(jù)庫(kù)變得不準(zhǔn)確,。

想象一下,如果您是一名 DOI 數(shù)據(jù)質(zhì)量經(jīng)理,,并嘗試以一種同時(shí)包含“準(zhǔn)確符合現(xiàn)實(shí)”和“準(zhǔn)確符合替代來源”的方式來定義準(zhǔn)確性。

衡量準(zhǔn)確性的規(guī)則有時(shí)會(huì)針對(duì)一件事或現(xiàn)實(shí)進(jìn)行衡量,,有時(shí)會(huì)針對(duì)另一件事或替代來源進(jìn)行衡量。在對(duì)話中,,您必須不斷澄清自己在說什么,。總體準(zhǔn)確性得分不足以讓您大致了解可能出現(xiàn)的問題,。

選擇定義兩個(gè)不同的數(shù)據(jù)質(zhì)量維度而不是統(tǒng)一的精度可以緩解所有這些問題。

3.維度是匯總結(jié)果的好方法

最后一種使用維度的方法是“聽起來很酷”和“框架”用途的簡(jiǎn)單的擴(kuò)展,,但具體地看它可以完整地說明數(shù)據(jù)質(zhì)量維度在整個(gè) DQ 過程中如何發(fā)揮作用,。

一旦你使用維度作為框架來確定什么是重要的,、你面臨的問題以及所有其他有趣的東西,你就可以開始制定測(cè)量和規(guī)則,,你需要真正確定你相對(duì)于這些指標(biāo)的位置,。然后你需要執(zhí)行這些規(guī)則并進(jìn)行測(cè)量。

最后,在某個(gè)時(shí)候,,您必須 1) 查看您的結(jié)果并 2) 將其展示給其他人,。

您不會(huì)每次都想查看每條規(guī)則的結(jié)果,。這樣會(huì)讓您抓狂或扭傷您的手指,。您需要匯總結(jié)果,。

但如何聚合?您肯定希望每次都以相同的權(quán)重將結(jié)果聚合到相同的組中,。這樣您的聚合結(jié)果就可以隨時(shí)間進(jìn)行比較,。

您還希望聚合是一組以某種方式相關(guān)的規(guī)則,,而不僅僅是隨機(jī)集合。然后,,您可以使用聚合分?jǐn)?shù)來說明一個(gè)有意義的概念。

如何定義這些聚合組,?

沒錯(cuò),就是維度,!

如果您已經(jīng)將維度確立為框架,那么一半的艱苦工作已經(jīng)完成,。另一半是決定如何準(zhǔn)確計(jì)算匯總結(jié)果:是否對(duì)任何結(jié)果進(jìn)行加權(quán)等。

在這種情況下,,維度是一種將結(jié)果聚合為更易于理解和呈現(xiàn)的頂層結(jié)果的方法。

為什么要使用“維度”而不是直接做這些事情,?

大量數(shù)據(jù)質(zhì)量問題是由碎片化引起的。數(shù)據(jù)集分散在各個(gè)系統(tǒng)中,,知識(shí)孤立,,不同系統(tǒng)的用戶彼此之間不溝通,也不了解彼此的需求,。

您需要注意數(shù)據(jù)質(zhì)量團(tuán)隊(duì)內(nèi)部是否也存在同樣的問題,。負(fù)責(zé)向公司其他團(tuán)隊(duì)進(jìn)行內(nèi)部銷售的經(jīng)理、與其他團(tuán)隊(duì)合作確定數(shù)據(jù)需求,、找出問題所在和需要哪些規(guī)則的分析師,,以及執(zhí)行這些規(guī)則并計(jì)算結(jié)果的數(shù)據(jù)工程師都需要保持一致,。

如果你們都從同一個(gè)維度開展工作,,即聽起來很酷、框架問題和匯總結(jié)果,,那么你們將有助于緩解自己團(tuán)隊(duì)中的數(shù)據(jù)質(zhì)量問題,。

如果維度如此靈活,,我怎么知道該怎么做,?

不用擔(dān)心:因?yàn)閿?shù)據(jù)質(zhì)量維度具有很強(qiáng)的可塑性,,所以您有很大的空間來找出一種能夠根據(jù)您的情況以有意義的方式定義的組合。

首先,,選擇你的路徑:

如果

  • 你因此感到壓力山大,、不知所措

  • 您尚未完全掌握數(shù)據(jù)質(zhì)量狀況。

選擇如果

  • 你很興奮地探索你的選擇

  • 您對(duì)自己負(fù)責(zé)的數(shù)據(jù)質(zhì)量情況有深入的了解。

請(qǐng)記住,,當(dāng)您弄清楚什么可行、什么不可行時(shí),,您也可以改變主意,。您決定開始測(cè)量的維度并不是您必須遵守的承諾:它們是一個(gè)起點(diǎn),。

在此過程的任何階段,甚至在數(shù)據(jù)質(zhì)量旅程的后期,,隨著您對(duì)數(shù)據(jù)質(zhì)量維度更加熟悉,,并且能夠更好地衡量數(shù)據(jù)質(zhì)量的不同方面,您可以根據(jù)需要添加或刪除維度,,以便為您提供最大的價(jià)值,。

?? 如果您感到壓力大、不知所措或不確定發(fā)生了什么……

從 DAMA 的維度開始,。如果您說這就是您的工作基礎(chǔ),供應(yīng)商,、顧問和您的數(shù)據(jù)管理專業(yè)人員同事都不會(huì)眨眼。而且它們足夠廣泛,,可以涵蓋很多問題,,因此您可能不會(huì)遇到無法立即分類的問題(特別是如果您使用開拓者方法)。

有關(guān) DAMA 定義的更多信息,,請(qǐng)參考他們的一份白皮書,。或者獲取他們的書《數(shù)據(jù)管理知識(shí)體系》(或 DMBOK),;截至本文撰寫時(shí),,最新版本的第 13 章涵蓋了數(shù)據(jù)質(zhì)量。

?? 如果您很高興探索您的選擇,,或者對(duì)您的 DQ 挑戰(zhàn)有很好的想法……

好消息:2020 年的一篇研究論文調(diào)查了一系列可靠來源,,發(fā)現(xiàn)了 127 個(gè)不同的維度。所以你在這里有很大的工作空間,。

請(qǐng)不要嘗試通過測(cè)量 127 個(gè)不同的維度來開始,。

相反,,看看這個(gè)詞云:

思考您的數(shù)據(jù)質(zhì)量問題,然后選擇 4 到 10 個(gè)最初與您產(chǎn)生共鳴的維度,。

其中至少一個(gè)應(yīng)該是“準(zhǔn)確性”或“正確性”或類似的內(nèi)容,;如果沒有,人們就會(huì)產(chǎn)生疑問,。您不希望 CIO 從手機(jī)上抬起頭來,,而沒有在結(jié)果幻燈片上看到這些詞。

這是您的起始維度集,。

我有維度,,現(xiàn)在怎么辦?

然后,,結(jié)合具體項(xiàng)目需求依次考慮每個(gè)維度,。這將幫助您確定每個(gè)維度對(duì)您意味著什么。

問以下問題:

  • 數(shù)據(jù)是關(guān)于什么或者誰的,?

  • 我們是否預(yù)計(jì)數(shù)據(jù)會(huì)隨著時(shí)間而改變,?

  • 我們期望記錄是唯一的嗎?

  • 誰在使用這些數(shù)據(jù),?

  • 對(duì)于那些人來說什么是重要的,?

  • 他們需要數(shù)據(jù)有多新?

  • 他們使用的數(shù)據(jù)來自哪個(gè)歷史時(shí)間跨度,?

  • 他們是否需要所有的記錄或者只需要一個(gè)代表性樣本就可以了,?

  • 他們是否需要完整填寫個(gè)人記錄,還是部分記錄就可以了,?

  • 數(shù)據(jù)會(huì)過期嗎,?

  • 數(shù)據(jù)來自多少個(gè)系統(tǒng)?

  • 數(shù)據(jù)中描述的實(shí)體是否有可能在多個(gè)系統(tǒng)中有記錄,?

  • 誰將數(shù)據(jù)輸入系統(tǒng),?

  • 誰從系統(tǒng)中獲取數(shù)據(jù)?

  • 是否保留所有歷史數(shù)據(jù),?如果沒有,,刪除策略是什么,?

以下是一些不同的示例場(chǎng)景,。

場(chǎng)景一、社交媒體評(píng)論:

這些數(shù)據(jù)是用戶在您的社交媒體頁(yè)面上留下的評(píng)論,。您不希望這些數(shù)據(jù)隨時(shí)間而變化,;一旦留下評(píng)論,這些數(shù)據(jù)就是靜態(tài)的,,因此重復(fù)的記錄可能表明存在技術(shù)故障,。

您期望記錄是唯一的,,因?yàn)槊織l記錄代表一位用戶發(fā)布的一條評(píng)論。數(shù)據(jù)分析師將使用這些數(shù)據(jù)對(duì)評(píng)論進(jìn)行情緒分析,,以確定對(duì)您品牌的總體反應(yīng),。

場(chǎng)景二、車輛追蹤:

這些數(shù)據(jù)是貴公司“駕駛并保存”汽車跟蹤設(shè)備的報(bào)告,。您預(yù)計(jì)個(gè)人駕駛的數(shù)據(jù)會(huì)有很大變化,,個(gè)人用戶的數(shù)據(jù)變化較少,而車輛的數(shù)據(jù)永遠(yuǎn)不會(huì)改變,。

您期望記錄是唯一的,,因?yàn)槊織l記錄都來自一輛車的某一時(shí)刻;重復(fù)記錄表示出現(xiàn)技術(shù)故障,。數(shù)據(jù)科學(xué)家正在使用這些數(shù)據(jù)來創(chuàng)建統(tǒng)計(jì)模型,,將駕駛行為與不同場(chǎng)景下的預(yù)期結(jié)果聯(lián)系起來。

場(chǎng)景三,、會(huì)員記錄:

這些數(shù)據(jù)是貴公司尊貴客戶會(huì)員計(jì)劃中的客戶記錄,。您預(yù)計(jì)這些數(shù)據(jù)會(huì)隨著用戶搬家、獲取新電話號(hào)碼,、更改姓名等更新個(gè)人信息而發(fā)生一定變化,。

您期望記錄是唯一的,因?yàn)槊織l記錄代表一個(gè)人,;重復(fù)記錄可能來自許多來源,,包括技術(shù)故障、客戶方面的人為錯(cuò)誤,、公司方面的人為錯(cuò)誤,、數(shù)據(jù)集成失敗等等。這些數(shù)據(jù)用于細(xì)分客戶并向他們發(fā)送他們有資格獲得的營(yíng)銷材料和獎(jiǎng)勵(lì)優(yōu)惠,。

我如何將這些想法與維度結(jié)合起來,?

下面列舉了一些例子,說明這些不同的場(chǎng)景如何促使針對(duì)幾個(gè)不同維度采取不同的方法,。

1.及時(shí)性

我們將及時(shí)性視為在需要時(shí)獲取數(shù)據(jù)的速度的衡量標(biāo)準(zhǔn),。

在場(chǎng)景 3(會(huì)員記錄)中,個(gè)人記錄級(jí)別的時(shí)效性非常重要:如果會(huì)員在將自己的信息從Amira Kingston更新為Amira Yang后立即致電客服,,您肯定不希望客服代表詢問“Kingston 女士”他們可以為她做些什么,。數(shù)據(jù)創(chuàng)建和可用之間的可接受間隔非常短。

在場(chǎng)景 2(車輛跟蹤)中,,時(shí)效性不那么重要,。由于統(tǒng)計(jì)模型使用大量歷史數(shù)據(jù),并且其結(jié)果不像客戶數(shù)據(jù)那樣以動(dòng)態(tài)的現(xiàn)場(chǎng)方式使用,,因此數(shù)據(jù)創(chuàng)建時(shí)間和可用時(shí)間之間的可接受差距可能相當(dāng)長(zhǎng):一周或更長(zhǎng)時(shí)間是合理的,。

在場(chǎng)景 1(社交媒體評(píng)論)中,,時(shí)效性非常重要。數(shù)據(jù)不作為單獨(dú)記錄使用,,但假設(shè)分析師想要了解對(duì)新公告的實(shí)時(shí)響應(yīng),。這可能意味著數(shù)據(jù)創(chuàng)建和可用性之間的可接受間隔是 2 小時(shí)左右。另一方面,,如果他們沒有進(jìn)行實(shí)時(shí)跟蹤,,則可能是幾天或幾周。一年中的某些時(shí)間可能與其他時(shí)間不同——您必須與分析師交談才能找到答案,!

2.完整性

我們首先將完整性視為記錄中可能填寫的字段數(shù)的衡量標(biāo)準(zhǔn),。

對(duì)于會(huì)員記錄(場(chǎng)景 3),完整性非常重要,??蛻舾鶕?jù)從生日到他們最常購(gòu)買的襯衫顏色等所有信息進(jìn)行細(xì)分。特別優(yōu)惠與生日和注冊(cè)周年紀(jì)念日相關(guān),。通信在不同時(shí)間以姓和名來稱呼客戶,。特別定價(jià)通常僅限于特定地區(qū)的居民。

如果會(huì)員記錄缺少數(shù)據(jù),,那就不合格了,;但是,您可能無法強(qiáng)迫會(huì)員提供您想要的所有信息,。這使得每條記錄 100% 完整度在短期內(nèi)(甚至可能永遠(yuǎn))都是不切實(shí)際的目標(biāo),。弄清楚可以獲得什么將成為您更廣泛的數(shù)據(jù)質(zhì)量流程的一部分。

在這種情況下,,您可能希望額外測(cè)量?jī)H一部分字段(最重要的字段)的完整性,。然后,您可以了解您必須了解的有關(guān)某人的數(shù)據(jù)的完整性與您想知道的數(shù)據(jù)的完整性,。

對(duì)于社交媒體評(píng)論(場(chǎng)景 1),,您會(huì)期望非常高的完整性:無論平臺(tái)提供什么數(shù)據(jù),您都希望獲得每條記錄,。但不同的社交媒體平臺(tái)提供的數(shù)據(jù)量不同,;也許僅相對(duì)于您實(shí)際使用的共享字段來衡量完整性是有意義的。

這就相當(dāng)于前一種場(chǎng)景中只衡量“必須知道”的完整性,,而根本不衡量“喜歡知道”的完整性,。

完整性的最后一個(gè)場(chǎng)景是車輛跟蹤(場(chǎng)景 2)。在理想情況下,,您希望自己的設(shè)備記錄在 100% 的時(shí)間內(nèi) 100% 完整,。

但這個(gè)世界并非如此:設(shè)備可能會(huì)損壞,,或者用戶可能無法正確使用它們,,從而導(dǎo)致全部或部分?jǐn)?shù)據(jù)丟失,。這種情況的典型程度是多少?這是持續(xù)完整性監(jiān)控可以回答的問題,。

然后,,您可以將其與以下成對(duì)問題相對(duì)應(yīng):什么程度的不完整性是可以接受的?只有您的數(shù)據(jù)科學(xué)家才能回答這個(gè)問題,,并且可能因人或項(xiàng)目而異,。

通過這種方式測(cè)量完整性,您可以直接在數(shù)據(jù)質(zhì)量和數(shù)據(jù)科學(xué)家結(jié)論的可靠性之間劃一條界線,。

如果典型的完整性水平低于數(shù)據(jù)科學(xué)家指定的可接受完整性水平,,則有充分理由進(jìn)行硬件改進(jìn)。要么設(shè)備需要減少故障,,要么需要進(jìn)行修改以提高用戶成功率,。

3.完整性(替代)

我們還可以將完整性視為現(xiàn)有記錄中可獲得數(shù)量的衡量標(biāo)準(zhǔn)。

對(duì)于會(huì)員記錄,,這種完整性也非常重要,。您需要?jiǎng)倓偼艘鄣?CRM 或您剛剛收購(gòu)的公司的數(shù)據(jù)庫(kù)中的會(huì)員記錄,就像您需要在全新 CRM 中創(chuàng)建的記錄一樣,。您絕對(duì)不希望 CSR 不得不告訴呼叫者在系統(tǒng)中找不到他們,。

對(duì)于社交媒體評(píng)論來說,這種完整性比記錄級(jí)別的完整性更重要……但如果這里或那里缺少一個(gè),,也不一定是大問題,。

一個(gè)平臺(tái)的 API 出現(xiàn)技術(shù)故障可能是小問題,也可能是大問題,,具體取決于受影響的記錄量,。您需要與分析師溝通,了解他們認(rèn)為具有代表性的樣本是什么,,并確定哪些是可以接受的,,哪些是不可接受的。

對(duì)于車輛跟蹤,,您的數(shù)據(jù)來自您自己的設(shè)備,。因此,一般來說,,您會(huì)期望您自己的數(shù)據(jù)科學(xué)家能夠輕松獲取他們想要的任何數(shù)據(jù),。

根據(jù)完整性的定義,您可以衡量其是否正確,。數(shù)據(jù)從設(shè)備傳輸?shù)侥睦???shù)據(jù)科學(xué)家可以直接提取數(shù)據(jù)嗎?還是需要通過中介,?

數(shù)據(jù)科學(xué)家能否獲得滿意的代表性樣本,,還是只能進(jìn)行過于簡(jiǎn)單的查詢,?數(shù)據(jù)是否能一直保存到數(shù)據(jù)科學(xué)家需要的時(shí)長(zhǎng),還是會(huì)被刪除,?還是會(huì)被存檔在難以獲取的地方,?

為什么你剛才提出了兩種不同的完整性定義?

它們很相似,,但想法卻不同,。

這就是我所說的維度可塑性。

如果您處于場(chǎng)景 3 的位置,,那么分別衡量完整性的兩個(gè)版本可能更有意義:記錄完整性和數(shù)據(jù)集完整性,,或完整性和可用性。

這是因?yàn)橛泻芏嘁蛩乜梢杂绊戇@兩種形式的完整性,,因此每種形式本身都相對(duì)復(fù)雜,。

如果您正在使用場(chǎng)景 2,您會(huì)期望兩種形式的完整性都非常高,。

但與場(chǎng)景 3 相比,,復(fù)雜因素可能較少;例如,,數(shù)據(jù)不是手動(dòng)輸入的,。因此,您可以選擇使用二維策略,,或者在單一維度上測(cè)量?jī)烧摺?/p>

在場(chǎng)景 1 中,,您可能希望首先測(cè)量其中之一。也許分析師有良好的經(jīng)驗(yàn)感,,認(rèn)為記錄完整性情況是可以接受的,,而緊迫的問題在于數(shù)據(jù)集完整性。

您可以專門選擇數(shù)據(jù)集完整性作為維度,,或者簡(jiǎn)單地選擇將“完整性”定義為具有數(shù)據(jù)集完整性的含義,。最終,一旦您有一個(gè)針對(duì)緊迫問題的強(qiáng)大程序,,您可能希望添加一個(gè)測(cè)量記錄完整性意義的維度,,以監(jiān)控未來的問題。

結(jié)論

盡管整個(gè)數(shù)據(jù)質(zhì)量社區(qū)的人們都在談?wù)摗皵?shù)據(jù)質(zhì)量維度”,,但對(duì)于這些維度是什么并沒有普遍認(rèn)同的觀點(diǎn),。DAMA 提出的維度集可能是您能獲得的最接近的,并且有一些主要供應(yīng)商,、顧問和組織不符合 DAMA,。但這并不是說“數(shù)據(jù)質(zhì)量維度”這個(gè)概念沒有用。它們很有用——但它們的概念比通常的表述更靈活、更具可塑性,。

數(shù)據(jù)質(zhì)量維度是以下方面的有用工具:

  • 內(nèi)部管理

  • 構(gòu)建數(shù)據(jù)質(zhì)量問題

  • 創(chuàng)建聚合結(jié)果,。

從技術(shù)上講,您不需要數(shù)據(jù)質(zhì)量維度來完成任何這些工作,。但是,通過使用“數(shù)據(jù)質(zhì)量維度”的構(gòu)造來正式化這些活動(dòng)的相互聯(lián)系,,您可以圍繞維度統(tǒng)一數(shù)據(jù)質(zhì)量團(tuán)隊(duì),,并幫助避免導(dǎo)致數(shù)據(jù)質(zhì)量問題的一些碎片化現(xiàn)象。重要的是要認(rèn)識(shí)到,,由于項(xiàng)目和組織之間的數(shù)據(jù)質(zhì)量要求可能有很大差異,,因此哪些數(shù)據(jù)質(zhì)量維度是相關(guān)的也可能有很大差異。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多