久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

標(biāo)準(zhǔn)化和歸一化,請(qǐng)勿混為一談,,透徹理解數(shù)據(jù)變換

 LibraryPKU 2021-03-20

1,、標(biāo)準(zhǔn)化(Standardization)和歸一化(Normalization)概念

1.1、定義

歸一化和標(biāo)準(zhǔn)化都是對(duì)數(shù)據(jù)做變換的方式,,將原始的一列數(shù)據(jù)轉(zhuǎn)換到某個(gè)范圍,,或者某種形態(tài),具體的:

歸一化( N o r m a l i z a t i o n Normalization Normalization):將一列數(shù)據(jù)變化到某個(gè)固定區(qū)間(范圍)中,,通常,,這個(gè)區(qū)間是[0, 1],廣義的講,,可以是各種區(qū)間,,比如映射到[0,1]一樣可以繼續(xù)映射到其他范圍,,圖像中可能會(huì)映射到[0,255],,其他情況可能映射到[-1,1],;
在這里插入圖片描述
標(biāo)準(zhǔn)化( S t a n d a r d i z a t i o n Standardization Standardization):將數(shù)據(jù)變換為均值為0,標(biāo)準(zhǔn)差為1的分布切記,,并非一定是正態(tài)的,;
在這里插入圖片描述
中心化:另外,還有一種處理叫做中心化,,也叫零均值處理,,就是將每個(gè)原始數(shù)據(jù)減去這些數(shù)據(jù)的均值。

我在這里多寫一點(diǎn),,很多博客甚至?xí)姓f,, S t a n d a r d i z a t i o n Standardization Standardization是改變數(shù)據(jù)分布,將其變換為服從 N ( 0 , 1 ) N(0,1) N(0,1)的標(biāo)準(zhǔn)正態(tài)分布,,這點(diǎn)是錯(cuò)的,,Standardization會(huì)改變數(shù)據(jù)的均值、標(biāo)準(zhǔn)差都變了(當(dāng)然,,嚴(yán)格的說,,均值和標(biāo)準(zhǔn)差變了,分布也是變了,,但分布種類依然沒變,,原來是啥類型,現(xiàn)在就是啥類型),,但本質(zhì)上的分布并不一定是標(biāo)準(zhǔn)正態(tài),,完全取決于原始數(shù)據(jù)是什么分布。我個(gè)舉例子,,我生成了100萬個(gè)服從 b e t a ( 0.5 , 0.5 ) beta(0.5,0.5) beta(0.5,0.5)的樣本點(diǎn)(你可以替換成任意非正態(tài)分布,,比如卡方等等,beta(1,1)是一個(gè)服從 U ( 0 , 1 ) U(0,1) U(0,1)的均勻分布,,所以我選了 b e t a ( 0.5 , 0.5 ) beta(0.5,0.5) beta(0.5,0.5)),,稱這個(gè)原始數(shù)據(jù)為 b 0 b_0 b0,分布如下圖所示:
在這里插入圖片描述
通過計(jì)算機(jī)計(jì)算,,樣本 b 0 b_0 b0的均值和方差分別為0.49982和0.12497(約為0.5和0.125)
對(duì)這個(gè)數(shù)據(jù)做 S t a n d a r d i z a t i o n Standardization Standardization,,稱這個(gè)標(biāo)準(zhǔn)化后的數(shù)據(jù)為 b 1 b_1 b1,分布如下:
在這里插入圖片描述
可以看到數(shù)據(jù)形態(tài)完全不是正態(tài)分布,,但是數(shù)學(xué)期望和方差已經(jīng)變了,。beta分布的數(shù)學(xué)期望為 a a + b \frac{a}{a+b} a+ba,方差為 a b ( a + b ) 2 ( a + b + 1 ) \frac{ab}{(a+b)^2(a+b+1)} (a+b)2(a+b+1)ab,,所以 E ( b 0 ) = 0.5 0.5 + 0.5 = 1 2 E(b_0)=\frac{0.5}{0.5+0.5}=\frac{1}{2} E(b0)=0.5+0.50.5=21,, V a r ( b 0 ) = 1 8 Var(b_0)=\frac{1}{8} Var(b0)=81,這也和我們上文所計(jì)算的樣本均值和方差一致,而 b 1 b_1 b1的均值和方差分別為:-1.184190523417783e-1和1,,均值和方差已經(jīng)不再是0.5和0.125,,分布改變,但絕不是一個(gè)正態(tài)分布,,你不信的話,,覺得看分布圖不實(shí)錘,通過 q q qq qq圖和檢驗(yàn)得到的結(jié)果如下:
在這里插入圖片描述
你要的qqplot
在這里插入圖片描述
你要的KS檢驗(yàn),,拒絕正態(tài)性原假設(shè),。
當(dāng)然,如果你原始數(shù)據(jù)就是正太的,,那么做了 S t a n d a r d i z a t i o n Standardization Standardization,生成的就是標(biāo)準(zhǔn)正態(tài)的數(shù)據(jù),,切記哦,,誰再和你說 S t a n d a r d i z a t i o n Standardization Standardization之后得到 N ( 0 , 1 ) N(0,1) N(0,1)你就反駁他。
之所以大家會(huì)把標(biāo)準(zhǔn)化和正態(tài)分布聯(lián)系起來,,是因?yàn)閷?shí)際數(shù)據(jù)中大部分都是正態(tài)分布,,起碼近似正態(tài),另外,,我看到很多人說標(biāo)準(zhǔn)化的基本假設(shè)是對(duì)正態(tài)數(shù)據(jù),,我并沒有從哪些知名度較高的課本教材中查詢到依據(jù),如果有知道的同學(xué)也可以給我普及

1.2,、聯(lián)系和差異

一,、聯(lián)系

說完 S t a n d a r d i z a t i o n Standardization Standardization和 N o r m a l i z a t i o n Normalization Normalization的定義和通常的計(jì)算方式,再說說二者的聯(lián)系和差異,。
說道聯(lián)系,, S t a n d a r d i z a t i o n Standardization Standardization和 N o r m a l i z a t i o n Normalization Normalization本質(zhì)上都是對(duì)數(shù)據(jù)的線性變換,廣義的說,,你甚至可以認(rèn)為他們是同一個(gè)母親生下的雙胞胎,,為何而言,因?yàn)槎叨际遣粫?huì)改變?cè)紨?shù)據(jù)排列順序的線性變換
假設(shè)原始數(shù)據(jù)為 X X X,,令 α = X m a x ? X m i n \alpha=X_{max}-X_{min} α=Xmax?Xmin,,令 β = X m i n \beta=X_{min} β=Xmin(很明顯,數(shù)據(jù)給定后 α ,、 β \alpha,、\beta αβ就是常數(shù)),,則 X N o r m a l i z a t i o n = X i ? β α = X i α ? β α = X i α ? c X_{Normalization}=\frac{X_{i}-\beta}{\alpha}=\frac{X_{i}}{\alpha}-\frac{\beta}{\alpha}=\frac{X_{i}}{\alpha}-c XNormalization=αXi?β=αXi?αβ=αXi?c,,可見, N o r m a l i z a t i o n Normalization Normalization是一個(gè)線性變換,按 α \alpha α進(jìn)行縮放,,然后平移 c c c個(gè)單位,。其實(shí) X i ? β α \frac{X_{i}-\beta}{\alpha} αXi?β中的 β \beta β和 α \alpha α就像是 S t a n d a r d i z a t i o n Standardization Standardization中的 μ \mu μ和 σ \sigma σ(數(shù)據(jù)給定后, μ \mu μ和 σ \sigma σ也是常數(shù)),。線性變換,,必不改變?cè)嫉呐盼豁樞颉?/p>

二、差異

  1. 第一點(diǎn):顯而易見,, N o r m a l i z a t i o n Normalization Normalization會(huì)嚴(yán)格的限定變換后數(shù)據(jù)的范圍,,比如按之前最大最小值處理的 N o r m a l i z a t i o n Normalization Normalization,它的范圍嚴(yán)格在 [ 0 , 1 ] [0,1] [0,1]之間,;
    而 S t a n d a r d i z a t i o n Standardization Standardization就沒有嚴(yán)格的區(qū)間,,變換后的數(shù)據(jù)沒有范圍,只是其均值是 0 0 0,,標(biāo)準(zhǔn)差為 1 1 1,。

  2. 第二點(diǎn):歸一化( N o r m a l i z a t i o n Normalization Normalization)對(duì)數(shù)據(jù)的縮放比例僅僅和極值有關(guān),就是說比如100個(gè)數(shù),,你除去極大值和極小值其他數(shù)據(jù)都更換掉,,縮放比例 α = X m a x ? X m i n \alpha=X_{max}-X_{min} α=Xmax?Xmin是不變的;反觀,,對(duì)于標(biāo)準(zhǔn)化( S t a n d a r d i z a t i o n Standardization Standardization)而言,,它的 α = σ \alpha=\sigma α=σ, β = μ \beta=\mu β=μ,,如果除去極大值和極小值其他數(shù)據(jù)都更換掉,,那么均值和標(biāo)準(zhǔn)差大概率會(huì)改變,這時(shí)候,,縮放比例自然也改變了,。

1.3、標(biāo)準(zhǔn)化和歸一化的多種方式

廣義的說,,標(biāo)準(zhǔn)化和歸一化同為對(duì)數(shù)據(jù)的線性變化,,所以我們沒必要規(guī)定死,歸一化就是必須到 [ 0 , 1 ] [0,1] [0,1]之間,,我到 [ 0 , 1 ] [0,1] [0,1]之間之后再乘一個(gè)255你奈我何,?常見的有以下幾種:

  1. 歸一化的最通用模式 N o r m a l i z a t i o n Normalization Normalization,也稱線性歸一化(我看有些地方也叫rescaling,,有待考證,,如果大家看到這個(gè)詞能想到對(duì)應(yīng)的是歸一化就行):

X n e w = X i ? X m i n X m a x ? X m i n X_{new}=\frac{X_{i}-X_{min}}{X_{max}-X_{min}} Xnew=Xmax?XminXi?Xmin,范圍[0,1]

  1. Mean normalization:

X n e w = X i ? m e a n ( X ) X m a x ? X m i n X_{new}=\frac{X_{i}-mean(X)}{X_{max}-X_{min}} Xnew=Xmax?XminXi?mean(X),,范圍[-1,1]

  1. 標(biāo)準(zhǔn)化( S t a n d a r d i z a t i o n Standardization Standardization),,也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化:

X n e w = X i ? μ σ X_{new}=\frac{X_{i}-\mu}{\sigma} Xnew=σXi,,范圍實(shí)數(shù)集

另外,我會(huì)在文章最后介紹一些比較常用的非線性數(shù)據(jù)處理方式比如boxcox變換等

2,、標(biāo)準(zhǔn)化,、歸一化的原因、用途

為何統(tǒng)計(jì)模型,、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)中經(jīng)常涉及到數(shù)據(jù)(特征)的標(biāo)準(zhǔn)化和歸一化呢,,我個(gè)人總結(jié)主要有以下幾點(diǎn),當(dāng)然可能還有一些其他的作用,,大家見解不同,,我說的這些是通常情況下的原因和用途。

  1. 統(tǒng)計(jì)建模中,,如回歸模型,,自變量 X X X的量綱不一致導(dǎo)致了回歸系數(shù)無法直接解讀或者錯(cuò)誤解讀;需要將 X X X都處理到統(tǒng)一量綱下,,這樣才可比,;

  2. 機(jī)器學(xué)習(xí)任務(wù)和統(tǒng)計(jì)學(xué)任務(wù)中有很多地方要用到“距離”的計(jì)算,比如PCA,,比如KNN,比如kmeans等等,,假使算歐式距離,,不同維度量綱不同可能會(huì)導(dǎo)致

    距離的計(jì)算依賴于量綱較大的那些特征

    而得到不合理的結(jié)果;

  3. 參數(shù)估計(jì)時(shí)使用梯度下降,,在使用梯度下降的方法求解最優(yōu)化問題時(shí),, 歸一化/標(biāo)準(zhǔn)化后可以加快梯度下降的求解速度,即提升模型的收斂速度,。

3,、什么時(shí)候Standardization,什么時(shí)候Normalization

我個(gè)人理解:如果你對(duì)處理后的數(shù)據(jù)范圍有嚴(yán)格要求,,那肯定是歸一化,,個(gè)人經(jīng)驗(yàn),標(biāo)準(zhǔn)化是ML中更通用的手段,,如果你無從下手,,可以直接使用標(biāo)準(zhǔn)化;如果數(shù)據(jù)不為穩(wěn)定,,存在極端的最大最小值,,不要用歸一化。在分類,、聚類算法中,,需要使用距離來度量相似性的時(shí)候、或者使用PCA技術(shù)進(jìn)行降維的時(shí)候,標(biāo)準(zhǔn)化表現(xiàn)更好,;在不涉及距離度量,、協(xié)方差計(jì)算的時(shí)候,可以使用歸一化方法,。
PS:PCA中標(biāo)準(zhǔn)化表現(xiàn)更好的原因可以參考(PCA標(biāo)準(zhǔn)化)

4,、所有情況都應(yīng)當(dāng)Standardization或Normalization么

當(dāng)原始數(shù)據(jù)不同維度特征的尺度(量綱)不一致時(shí),需要標(biāo)準(zhǔn)化步驟對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化或歸一化處理,,反之則不需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,。也不是所有的模型都需要做歸一的,比如模型算法里面有沒關(guān)于對(duì)距離的衡量,,沒有關(guān)于對(duì)變量間標(biāo)準(zhǔn)差的衡量,。比如決策樹,他采用算法里面沒有涉及到任何和距離等有關(guān)的,,所以在做決策樹模型時(shí),,通常是不需要將變量做標(biāo)準(zhǔn)化的;另外,,概率模型不需要?dú)w一化,,因?yàn)樗鼈儾魂P(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率,。

5,、一些其他的數(shù)據(jù)變換方式

5.1、log變換

X n e w = l o g 10 ( X i ) / l o g 10 ( X m a x ) X_{new}=log_{10}(X_{i})/log_{10}(X_{max}) Xnew=log10(Xi)/log10(Xmax)

5.2,、sigmoid變換(sigmoid函數(shù))

X n e w = 1 1 + e ? X i X_{new}=\frac{1}{1+e^{-X_{i}}} Xnew=1+e?Xi1

其圖像如下:
在這里插入圖片描述

5.3,、softmax變換(softmax函數(shù))

X n e x = e X i ∑ e X i X_{nex}=\frac{e^{X_{i}}}{\sum{e^{X_{i}}}} Xnex=eXieXi

5.4、boxcox變換

在這里插入圖片描述

boxcox變換主要是降低數(shù)據(jù)的偏度,,通?;貧w模型殘差非正態(tài)或異方差的時(shí)候,會(huì)選擇對(duì)y做boxcox變換,,降低y的偏度,,讓y更接近正態(tài)。具體的,,我以后如果寫到回歸或boxcox回歸,,和讀者同學(xué)一起探討。

6,、結(jié)語

以上,,及我個(gè)人對(duì)數(shù)據(jù)預(yù)處理中標(biāo)準(zhǔn)化和歸一化的一些理解和說明。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多