標(biāo)準(zhǔn)化與歸一化1,、標(biāo)準(zhǔn)化(Standardization)和歸一化(Normalization)概念1.1、定義歸一化和標(biāo)準(zhǔn)化都是對(duì)數(shù)據(jù)做變換的方式,,將原始的一列數(shù)據(jù)轉(zhuǎn)換到某個(gè)范圍,,或者某種形態(tài),具體的:
我在這里多寫一點(diǎn),,很多博客甚至?xí)姓f,,
S
t
a
n
d
a
r
d
i
z
a
t
i
o
n
Standardization
Standardization是改變數(shù)據(jù)分布,將其變換為服從
N
(
0
,
1
)
N(0,1)
N(0,1)的標(biāo)準(zhǔn)正態(tài)分布,,這點(diǎn)是錯(cuò)的,,Standardization會(huì)改變數(shù)據(jù)的均值、標(biāo)準(zhǔn)差都變了(當(dāng)然,,嚴(yán)格的說,,均值和標(biāo)準(zhǔn)差變了,分布也是變了,,但分布種類依然沒變,,原來是啥類型,現(xiàn)在就是啥類型),,但本質(zhì)上的分布并不一定是標(biāo)準(zhǔn)正態(tài),,完全取決于原始數(shù)據(jù)是什么分布。我個(gè)舉例子,,我生成了100萬個(gè)服從
b
e
t
a
(
0.5
,
0.5
)
beta(0.5,0.5)
beta(0.5,0.5)的樣本點(diǎn)(你可以替換成任意非正態(tài)分布,,比如卡方等等,beta(1,1)是一個(gè)服從
U
(
0
,
1
)
U(0,1)
U(0,1)的均勻分布,,所以我選了
b
e
t
a
(
0.5
,
0.5
)
beta(0.5,0.5)
beta(0.5,0.5)),,稱這個(gè)原始數(shù)據(jù)為
b
0
b_0
b0,分布如下圖所示: 1.2,、聯(lián)系和差異一,、聯(lián)系說完
S
t
a
n
d
a
r
d
i
z
a
t
i
o
n
Standardization
Standardization和
N
o
r
m
a
l
i
z
a
t
i
o
n
Normalization
Normalization的定義和通常的計(jì)算方式,再說說二者的聯(lián)系和差異,。 二、差異
1.3、標(biāo)準(zhǔn)化和歸一化的多種方式廣義的說,,標(biāo)準(zhǔn)化和歸一化同為對(duì)數(shù)據(jù)的線性變化,,所以我們沒必要規(guī)定死,歸一化就是必須到 [ 0 , 1 ] [0,1] [0,1]之間,,我到 [ 0 , 1 ] [0,1] [0,1]之間之后再乘一個(gè)255你奈我何,?常見的有以下幾種:
另外,我會(huì)在文章最后介紹一些比較常用的非線性數(shù)據(jù)處理方式比如boxcox變換等 2,、標(biāo)準(zhǔn)化,、歸一化的原因、用途為何統(tǒng)計(jì)模型,、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)中經(jīng)常涉及到數(shù)據(jù)(特征)的標(biāo)準(zhǔn)化和歸一化呢,,我個(gè)人總結(jié)主要有以下幾點(diǎn),當(dāng)然可能還有一些其他的作用,,大家見解不同,,我說的這些是通常情況下的原因和用途。
3,、什么時(shí)候Standardization,什么時(shí)候Normalization我個(gè)人理解:如果你對(duì)處理后的數(shù)據(jù)范圍有嚴(yán)格要求,,那肯定是歸一化,,個(gè)人經(jīng)驗(yàn),標(biāo)準(zhǔn)化是ML中更通用的手段,,如果你無從下手,,可以直接使用標(biāo)準(zhǔn)化;如果數(shù)據(jù)不為穩(wěn)定,,存在極端的最大最小值,,不要用歸一化。在分類,、聚類算法中,,需要使用距離來度量相似性的時(shí)候、或者使用PCA技術(shù)進(jìn)行降維的時(shí)候,標(biāo)準(zhǔn)化表現(xiàn)更好,;在不涉及距離度量,、協(xié)方差計(jì)算的時(shí)候,可以使用歸一化方法,。 4,、所有情況都應(yīng)當(dāng)Standardization或Normalization么當(dāng)原始數(shù)據(jù)不同維度特征的尺度(量綱)不一致時(shí),需要標(biāo)準(zhǔn)化步驟對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化或歸一化處理,,反之則不需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,。也不是所有的模型都需要做歸一的,比如模型算法里面有沒關(guān)于對(duì)距離的衡量,,沒有關(guān)于對(duì)變量間標(biāo)準(zhǔn)差的衡量,。比如決策樹,他采用算法里面沒有涉及到任何和距離等有關(guān)的,,所以在做決策樹模型時(shí),,通常是不需要將變量做標(biāo)準(zhǔn)化的;另外,,概率模型不需要?dú)w一化,,因?yàn)樗鼈儾魂P(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率,。 5,、一些其他的數(shù)據(jù)變換方式5.1、log變換
5.2,、sigmoid變換(sigmoid函數(shù))
其圖像如下: 5.3,、softmax變換(softmax函數(shù))
5.4、boxcox變換boxcox變換主要是降低數(shù)據(jù)的偏度,,通?;貧w模型殘差非正態(tài)或異方差的時(shí)候,會(huì)選擇對(duì)y做boxcox變換,,降低y的偏度,,讓y更接近正態(tài)。具體的,,我以后如果寫到回歸或boxcox回歸,,和讀者同學(xué)一起探討。 6,、結(jié)語以上,,及我個(gè)人對(duì)數(shù)據(jù)預(yù)處理中標(biāo)準(zhǔn)化和歸一化的一些理解和說明。 |
|