01.導(dǎo)論:數(shù)據(jù)思維的三個(gè)常見(jiàn)誤解:
數(shù)據(jù)思維就是使用數(shù)據(jù)來(lái)提出問(wèn)題和解決問(wèn)題的能力 數(shù)據(jù)思維的強(qiáng)弱,,不基于先天的數(shù)字感,,也不基于你掌握多少數(shù)據(jù)技能和數(shù)據(jù)知識(shí),,而是基于你對(duì)數(shù)據(jù)技能和數(shù)據(jù)知識(shí)的認(rèn)知 數(shù)據(jù)知識(shí)和數(shù)據(jù)技能看起來(lái)是客觀的,,但對(duì)它們的理解、認(rèn)知卻因人而異,。這就是每個(gè)人的數(shù)據(jù)思維水平相差很大的重要原因,。
02.轉(zhuǎn)型:如何培養(yǎng)數(shù)據(jù)敏感度?
量轉(zhuǎn)型:把過(guò)去用定性的方式思考,、談?wù)摵褪褂靡粋€(gè)東西的習(xí)慣,,有意識(shí)地轉(zhuǎn)變?yōu)橛枚康姆绞剿伎肌⒄務(wù)摵褪褂?,如夸小姐姐顏值高,,而不只說(shuō)漂亮 量定義:如果一個(gè)事物的性質(zhì)是用某一方面的量來(lái)定義的,就搞清楚它具體是怎么定義的,,如我們把老年人口占全體人口的比例看成是測(cè)量一個(gè)社會(huì)“生理上”老化程度的指標(biāo) 對(duì)應(yīng)值:在量定義的基礎(chǔ)上,,為事物確定一個(gè)明確的量的標(biāo)準(zhǔn),如使用老年人口占全體人口的比例來(lái)測(cè)量,,那么,,這個(gè)比例要達(dá)到多少才是一個(gè)老齡社會(huì)呢?
03.背景:為什么孤立的數(shù)據(jù)沒(méi)有意義,?
背景不同,,數(shù)據(jù)代表的意義就不同。只有確定了數(shù)據(jù)的背景,,才能準(zhǔn)確理解數(shù)據(jù)的意義,。
掌握數(shù)據(jù)的背景可以幫助我們理解什么信息: 理解事物的屬性【是什么】:如體脂率,指脂肪重量在總體重中所占的比例,,反映了人體內(nèi)脂肪含量的多少 理解事物的相對(duì)情況:如果你的體脂率是 21%,,這是正常還是不正常呢?首先要看性別和年齡,,知道成年人的體脂率正常范圍 理解當(dāng)事人的意圖
04.推理:怎么發(fā)現(xiàn)數(shù)據(jù)隱藏的信息
單一的一個(gè)數(shù)據(jù)包含的信息也不是那么少,,我們需要把隱含的信息挖掘出來(lái)。教你三個(gè)方法 數(shù)學(xué)推斷,。先利用數(shù)學(xué)知識(shí)做出假設(shè),,然后進(jìn)行推斷 邏輯推理,。從各個(gè)領(lǐng)域的規(guī)則和限制條件出發(fā),進(jìn)行合理化推測(cè),。 切換視角,。在不同的視角、關(guān)系下觀察數(shù)據(jù),,數(shù)據(jù)就會(huì)發(fā)出不同的隱含信息,。
05.差異:為什么同樣的數(shù)據(jù)感受不一樣
如果從人這一端來(lái)看,人的生物性和人與人之間的差異會(huì)導(dǎo)致我們?cè)诿鎸?duì)同樣的數(shù)據(jù)時(shí),,產(chǎn)生不同的感覺(jué),、解釋和觀點(diǎn)。
人與人的差異主要包含三個(gè)方面 生理傾向差異 文化屬性差異 價(jià)值立場(chǎng)差異
由于人自身的差異而導(dǎo)致對(duì)數(shù)據(jù)感知的差異,,既是正常的,,也是要警惕的。一定不要把自己的特點(diǎn)當(dāng)成全人類(lèi)的特點(diǎn),,大家對(duì)數(shù)據(jù)的感知可能真的不太一樣,。 06.估算:為什么要敢于不精確?
對(duì)數(shù)據(jù)精度的過(guò)分迷戀是一件要警惕的事情,。根據(jù)目標(biāo)確定需要什么精度的數(shù)據(jù),,才是好的數(shù)據(jù)思維 估算能讓我們?cè)谥篮苌傩畔⒌那闆r下得出相對(duì)靠譜的數(shù)據(jù)。估算時(shí)要做到兩點(diǎn)——敢于不精確,,但不能太離譜(同一量級(jí)上) 兩個(gè)估算技巧:“二八法則”和“1%法則(你進(jìn)行決策分析的花費(fèi)應(yīng)該約為決策價(jià)值的 1%)
07.映射:數(shù)據(jù)究竟是什么,?
數(shù)據(jù)是對(duì)現(xiàn)實(shí)世界實(shí)體的映射,是在某種方法之下對(duì)實(shí)體的數(shù)字化表達(dá),。 數(shù)據(jù)需要元數(shù)據(jù)來(lái)說(shuō)明,、描寫(xiě)和記錄它的關(guān)鍵特征,元數(shù)據(jù)就是對(duì)某個(gè)對(duì)象做出的陳述(斯諾登爆料美國(guó)“棱鏡計(jì)劃”在收集通話的元數(shù)據(jù),,就是說(shuō)明通話在何時(shí),、何地、通了多少時(shí)間那些記錄,,一旦我收集到了你去過(guò)的 4 個(gè)地方和 4 個(gè)時(shí)間,,我就能知道你的手機(jī)號(hào)碼) 不要把數(shù)據(jù)容器和數(shù)據(jù)本身混淆,也不要以為數(shù)據(jù)自動(dòng)蘊(yùn)含信息,。數(shù)據(jù)中蘊(yùn)含什么信息,,需要有數(shù)據(jù)思維的人專(zhuān)門(mén)處理。葡萄酒模型——葡萄酒可以分成四件事:①酒本身【數(shù)據(jù)】,;②酒瓶【數(shù)據(jù)容器】,;③酒瓶上的標(biāo)簽【元數(shù)據(jù)】;④喝進(jìn)去的感覺(jué)【數(shù)據(jù)中蘊(yùn)含的信息】
08.類(lèi)型:為什么要對(duì)數(shù)據(jù)區(qū)別對(duì)待,?
數(shù)據(jù),、變量和表格是三個(gè)不同層次的概念: 數(shù)據(jù)一共有四種類(lèi)型: 類(lèi)別數(shù)據(jù):完整而排他的類(lèi)別,,如性別男女 次序數(shù)據(jù):如非常重要,重要,,一般,,不重要 間隔數(shù)據(jù):數(shù)據(jù)間隔相同,如智商 比例數(shù)據(jù):間隔是確定的,,且之間的意義都相同,,如收入
了解數(shù)據(jù)類(lèi)型的作用: 向下兼容的本質(zhì)是說(shuō),從類(lèi)別數(shù)據(jù),、次序數(shù)據(jù)到間隔數(shù)據(jù),、比例數(shù)據(jù),越往后數(shù)據(jù)擁有的信息越多 數(shù)據(jù)類(lèi)型不同,,處理數(shù)據(jù)的方法就不同 每一種類(lèi)型的數(shù)據(jù)都有它的用處,,這里沒(méi)有鄙視鏈
09.測(cè)量:如果定量地把握一個(gè)事物 測(cè)量的目標(biāo)就是為了得到一組指標(biāo),。這樣一來(lái),,我們就可以用這組指標(biāo)描述一個(gè)事物了,如需要確切地知道一個(gè)國(guó)家的營(yíng)商環(huán)境如何,。 為了全面把握一個(gè)事物,,測(cè)量時(shí)可以用維度拆分的方法,具體要遵循兩個(gè)原則: 邊際效應(yīng)最大化原則(拆分不多不少) 可靠性原則(保證每次測(cè)量都能得到穩(wěn)定的結(jié)果)
如營(yíng)商環(huán)境是指市場(chǎng)主體在準(zhǔn)入,、生產(chǎn)經(jīng)營(yíng),、退出等過(guò)程中,涉及的政務(wù)環(huán)境,、市場(chǎng)環(huán)境,、法治環(huán)境、人文環(huán)境等有關(guān)外部因素和條件的總和,。 為了保證測(cè)量的就是我們想測(cè)量的,,我們需要用各種方法進(jìn)行確認(rèn): 關(guān)聯(lián)性——如對(duì)聯(lián)的水平與國(guó)學(xué)水平有關(guān) 結(jié)構(gòu)性——很多變量在理論上是有聯(lián)系的,如果有證據(jù)證明了這種聯(lián)系,,我們就可以說(shuō)自己的測(cè)量是有效的,。 完備性——測(cè)量的內(nèi)容是不是全面包含了要認(rèn)知的對(duì)象。比如測(cè)量數(shù)學(xué)能力,,但是出的都是代數(shù)方面的題目,,沒(méi)有幾何方面的,就很難說(shuō)服大家這個(gè)測(cè)量全面考察了數(shù)學(xué)能力
10.抽樣:怎么確保樣本能推斷總體 只有概率樣本才能確保全面反映總體的情況,。概率樣本就是每一個(gè)樣本都要按照事先確定的概率規(guī)則選取 現(xiàn)實(shí)工作中,,非概率樣本也可以幫我們應(yīng)對(duì)一些復(fù)雜的、概率樣本難以覆蓋的情況,,如想了解同性戀人群的情況 抽樣調(diào)查的結(jié)果是一個(gè)有限制條件的范圍,,而不是一個(gè)單一的數(shù)值,。不要把抽樣結(jié)果直接用在總體上。如在95%的置信度之下,,中國(guó)人的女性比例在 46.8%到 51.2%之間
11.問(wèn)卷:為什么說(shuō)含金量最高的是操作化,? 問(wèn)卷的核心是提問(wèn),而不是問(wèn)題出現(xiàn)在哪種媒介和哪個(gè)場(chǎng)景中 問(wèn)卷就是概念操作化的工具,,問(wèn)卷的含金量就在于概念操作化的水平,,就起用一整套問(wèn)題,從各個(gè)角度逼近你的主觀感受,??荚囈彩且粯?/span> 設(shè)計(jì)問(wèn)卷時(shí),問(wèn)題必須讓答題者準(zhǔn)確理解(概念清晰),,而且要注意提問(wèn)方式,,問(wèn)卷設(shè)計(jì)是一個(gè)技術(shù)活,千萬(wàn)不要小看,。你能得到什么就取決于你怎么問(wèn),。 反過(guò)來(lái),當(dāng)你引用別人的數(shù)據(jù)的時(shí)候,,知道別人的數(shù)據(jù)是怎么來(lái)的,,就變得非常重要。只有操作化才能打敗操作化
12.實(shí)驗(yàn):怎么定量地確定因果關(guān)系,? 實(shí)驗(yàn)法是通過(guò)操縱自變量,、控制無(wú)關(guān)變量、觀測(cè)因變量這樣的邏輯,,既找到了因果性,,也能知道原因的效果大小(有對(duì)照組的隨機(jī)雙盲實(shí)驗(yàn)) 實(shí)驗(yàn)法特別適合范圍有限,、界定明確的概念和假設(shè),。因此,實(shí)驗(yàn)法最大的問(wèn)題就在于結(jié)論的外推,,一不小心就會(huì)把結(jié)論的適用范圍錯(cuò)誤地?cái)U(kuò)大 走出實(shí)驗(yàn)室做實(shí)驗(yàn),,讓實(shí)驗(yàn)控制與真實(shí)的社會(huì)生活接近,會(huì)讓實(shí)驗(yàn)的結(jié)論更可靠,。
13.大數(shù)據(jù):到底有什么不一樣,? 大數(shù)據(jù)帶來(lái)了新的思維方式和利用方式,不僅沖擊了傳統(tǒng)的數(shù)據(jù)收集方式,,也極大地拓展了我們的能力,,我們必須與時(shí)俱進(jìn) 大數(shù)據(jù)擁有海量性、持續(xù)性和不反應(yīng)性(被監(jiān)控對(duì)象不察覺(jué))等優(yōu)勢(shì),,但使用時(shí)也有很多要避開(kāi)的坑: 大數(shù)據(jù)里的數(shù)據(jù),,絕大部分都不是為了我們的目的收集的,,而是在例行的業(yè)務(wù)活動(dòng)中自動(dòng)產(chǎn)生的,如果想利用這些數(shù)據(jù),,就必須理解這些數(shù)據(jù)是怎么產(chǎn)生的,,搞清楚這些數(shù)據(jù)的精確含義 不要低估數(shù)據(jù)清洗的重要性、難度和成本 使用大數(shù)據(jù)時(shí),,要理解大數(shù)據(jù)的代表性問(wèn)題,。以為大數(shù)據(jù)數(shù)據(jù)量大,它的代表性就好,。但是,,放在歷史長(zhǎng)河里,不管大數(shù)據(jù)多大,,它都只是一個(gè)樣本(如電話拜訪預(yù)測(cè)總統(tǒng)競(jìng)選結(jié)果)
做樣本內(nèi)比較或者分析個(gè)體的行為,,大數(shù)據(jù)很擅長(zhǎng)。但是把結(jié)論推及總體,,大數(shù)據(jù)經(jīng)常不能支持這個(gè)任務(wù),。善于把大數(shù)據(jù)和小數(shù)據(jù)相結(jié)合,才是我們利用數(shù)據(jù)的最高境界,。 14.表征:如何確定你到底是誰(shuí) 在使用數(shù)據(jù)尋求表征之前,,必須完成兩件事:第一,識(shí)別真正的挑戰(zhàn)是什么,,明確我們到底想定性什么;第二,,不斷反思自己對(duì)這件事的認(rèn)知 在面對(duì)復(fù)雜問(wèn)題時(shí),,我們需要隨著信息的增加而不斷調(diào)整表征方向 當(dāng)沒(méi)有現(xiàn)成的數(shù)據(jù)能表征我們想要的東西時(shí),可以自己構(gòu)造新指標(biāo),。雖然有風(fēng)險(xiǎn),,但值得嘗試。
15.分類(lèi):誰(shuí)是他,?誰(shuí)是我,?
分類(lèi)就是按照量的標(biāo)準(zhǔn)把一個(gè)總體分成幾組,必須保證組內(nèi)差異小,,組間差異大 分類(lèi)的結(jié)果一定是概率性的,,有出錯(cuò)的可能 當(dāng)沒(méi)有標(biāo)準(zhǔn)答案,僅僅能通過(guò)分析數(shù)據(jù)來(lái)分類(lèi)時(shí),,最重要的就是建立數(shù)據(jù)與現(xiàn)實(shí)世界的連接,。只有這樣,才能確保我們的發(fā)現(xiàn)是合情合理的
16.分解:究竟誰(shuí)對(duì)你影響最大,? 所謂的分解,,就是把影響一個(gè)復(fù)雜事物的各種復(fù)雜糾纏的因素分開(kāi),。通過(guò)分解,可以濃縮信息,,探究本質(zhì) 要建立分解的意識(shí),,不要一見(jiàn)到差異,就想當(dāng)然地認(rèn)為都源于一個(gè)單一因素,,很多事情,,有差異是正常的,平等不等于相等,。 分解的辦法有很多種,,因子分解只是其中的一種。每種分解方法都有各自的優(yōu)點(diǎn),、缺點(diǎn)和適用條件,。如果不確定你要解決的問(wèn)題應(yīng)該用哪種方法,可以找數(shù)據(jù)專(zhuān)家咨詢(xún),。
17.因果:如何緩解反事實(shí)難題,? (1)兩個(gè)變量之間因果關(guān)系成立的必要條件有三個(gè): 兩個(gè)變量有相關(guān)。確定因果關(guān)系,,不能只看這兩件事情之間,,而必須看到世界運(yùn)作的全景。要是你還沒(méi)有能力看到全景,,那么請(qǐng)?jiān)僖淮伪3种t卑,,慎重下結(jié)論。 兩個(gè)變量有先后 兩個(gè)變量的關(guān)系不能被第三個(gè)變量解釋,。
先建立所研究問(wèn)題整體的運(yùn)行圖景,,說(shuō)明各個(gè)變量之間的聯(lián)系。然后去收集數(shù)據(jù),,讓數(shù)據(jù)逼近這個(gè)理論圖景,。再然后,用數(shù)據(jù)驗(yàn)證這個(gè)理論,。如果驗(yàn)證 通過(guò),,就對(duì)理論更相信一點(diǎn)。如果不通過(guò),,就改進(jìn)理論或者收集新的數(shù)據(jù),,再次驗(yàn)證。如此循環(huán)下去,。 (2)因果關(guān)系的尋找是一項(xiàng)重大挑戰(zhàn),,沒(méi)有保證成功的一般法則。其中,最大的困難就在于反事實(shí)難題的存在,,因?yàn)閿?shù)據(jù)永遠(yuǎn)不夠: 我們只能對(duì)群體做因果推斷,,不能對(duì)個(gè)體做因果推斷 我們只能對(duì)因果關(guān)系做概率表述,不能做確定性的表述 隨機(jī)試驗(yàn)不能完全解決問(wèn)題,,推廣到總體時(shí)要很小心
(3)面對(duì)現(xiàn)實(shí)問(wèn)題,,我們能做的就是猜測(cè)、驗(yàn)證和迭代,。如果對(duì)因果關(guān)系的追尋有一個(gè)總原則的話,,那就是保持謙卑
18.行動(dòng):如何用數(shù)據(jù)指導(dǎo)決策 真正利用數(shù)據(jù)指導(dǎo)決策,需要做好三步:理解挑戰(zhàn),,建立模型,,量化變量 建立決策模型時(shí)要學(xué)會(huì)轉(zhuǎn)換思路,從解決一個(gè)問(wèn)題轉(zhuǎn)換成理解一個(gè)機(jī)制,。只有徹底理解了挑戰(zhàn)背后的機(jī)制,,建立的模型才是可靠的 一切事物皆可量化,而量化的實(shí)質(zhì)就是降低不確定性
19.可視化:如何塑造受眾的感覺(jué) 數(shù)據(jù)可視化是基于數(shù)據(jù)的,,由數(shù)據(jù)驅(qū)動(dòng)生成的圖像,,幫助受眾看見(jiàn)并理解數(shù)據(jù)當(dāng)中隱含的信息 好的數(shù)據(jù)可視化作品要兼顧高效和美觀。傳達(dá)信息快速有力,,過(guò)程又充滿愉悅感和美感 數(shù)據(jù)可視化是一個(gè)重要的探索工具,,能讓我們發(fā)現(xiàn)其他手段難以發(fā)現(xiàn)的新信息。
20.誤導(dǎo):怎樣識(shí)別數(shù)據(jù)中的認(rèn)知陷阱 數(shù)字不會(huì)欺騙,,是人會(huì)欺騙,。西方有句俗語(yǔ)說(shuō),Don't hate the player, hatethe game(別去恨玩家,,要恨恨游戲) 誤導(dǎo)的具體方法很多,,不可能完全舉例說(shuō)明,建議你發(fā)現(xiàn)一個(gè)就記下來(lái)一個(gè),,經(jīng)驗(yàn)多了,就會(huì)提高識(shí)別的能力和速度 遇到別人用數(shù)據(jù)得出的論斷,,建議先問(wèn)自己五個(gè)問(wèn)題:誰(shuí)說(shuō)的,?他是如何知道的?遺漏了什么,?是否有人偷換了概念,?這個(gè)資料有意義嗎?
21.結(jié)語(yǔ):數(shù)據(jù)思維背后的三個(gè)基本信念 我認(rèn)為數(shù)據(jù)思維是現(xiàn)代人的基本素養(yǎng)之一,,地位與語(yǔ)文素養(yǎng)一樣,。理由有三個(gè): 這個(gè)世界是量的,只有通過(guò)量才可能接近質(zhì) 只有通過(guò)量的競(jìng)爭(zhēng),才能達(dá)成質(zhì)的暫時(shí)共識(shí) 雖然定量的方法不完美,,但我們只能依賴(lài)它
|