久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

時間序列ARIMA模型詳解:python實現(xiàn)店鋪一周銷售量預(yù)測

 andyandygo 2016-10-08



    顧名思義,,時間序列是時間間隔不變的情況下收集的時間點集合。這些集合被分析用來了解長期發(fā)展趨勢,,為了預(yù)測未來或者表現(xiàn)分析的其他形式,。但是是什么令時間序列與常見的回歸問題的不同,?


有兩個原因:

1,、時間序列是跟時間有關(guān)的。所以基于線性回歸模型的假設(shè):觀察結(jié)果是獨立的在這種情況下是不成立的,。


2,、隨著上升或者下降的趨勢,更多的時間序列出現(xiàn)季節(jié)性趨勢的形式,,如:特定時間框架的具體變化,。即:如果你看到羊毛夾克的銷售上升,你就一定會在冬季做更多銷售,。


常用的時間序列模型有AR模型,、MA模型,、ARMA模型和ARIMA模型等。


一,、時間序列的預(yù)處理

拿到一個觀察值序列之后,,首先要對它的平穩(wěn)性和純隨機性進行檢驗,這兩個重要的檢驗稱為序列的預(yù)處理,。根據(jù)檢驗的結(jié)果可以將序列分為不同的類型,,對不同類型的序列我們會采用不同的分析方法。

 

先說下什么是平穩(wěn),,平穩(wěn)就是圍繞著一個常數(shù)上下波動且波動范圍有限,,即有常數(shù)均值和常數(shù)方差如果有明顯的趨勢或周期性,,那它通常不是平穩(wěn)序列,。序列平穩(wěn)不平穩(wěn),一般采用種方法檢驗


(1)時序圖檢驗


 

看看上面這個圖,,很明顯的增長趨勢,,不平穩(wěn)。

 

(2)自相關(guān)系數(shù)和偏相關(guān)系數(shù)

還以上面的序列為例:用SPSS得到自相關(guān)和偏相關(guān)圖,。



分析:左邊第一個為自相關(guān)圖(Autocorrelation),,第二個偏相關(guān)圖(Partial Correlation)

 

平穩(wěn)的序列的自相關(guān)圖和偏相關(guān)圖要么拖尾,,要么是截尾,。截尾就是在某階之后,系數(shù)都為 0 ,,怎么理解呢,,看上面偏相關(guān)的圖,當(dāng)階數(shù)為 1 的時候,,系數(shù)值還是很大,, 0.914. 二階長的時候突然就變成了 0.050. 后面的值都很小,認(rèn)為是趨于 0 ,,這種狀況就是截尾,。什么是拖尾,拖尾就是有一個緩慢衰減的趨勢,,但是不都為 0 ,。

 

自相關(guān)圖既不是拖尾也不是截尾。以上的圖的自相關(guān)是一個三角對稱的形式,,這種趨勢是單調(diào)趨勢的典型圖形,,說明這個序列不是平穩(wěn)序列。

 

(3)單位根檢驗

單位根檢驗是指檢驗序列中是否存在單位根,如果存在單位根就是非平穩(wěn)時間序列,。

 

不平穩(wěn),,怎么辦?

答案是差分,,轉(zhuǎn)換為平穩(wěn)序列,。什么是差分?一階差分指原序列值相距一期的兩個序列值之間的減法運算,;k階差分就是相距k期的兩個序列值之間相減,。如果一個時間序列經(jīng)過差分運算后具有平穩(wěn)性,則該序列為差分平穩(wěn)序列,,可以使用ARIMA模型進行分析,。

 

還是上面那個序列,兩種方法都證明他是不靠譜的,,不平穩(wěn)的,。確定不平穩(wěn)后,依次進行1階,、2階,、3階...差分,直到平穩(wěn)為止,。先來個一階差分,,上圖:


 



 
從圖上看,一階差分的效果不錯,,看著是平穩(wěn)的,。


平穩(wěn)性檢驗過后,下一步是純隨機性檢驗,。

對于純隨機序列,,又稱白噪聲序列,序列的各項數(shù)值之間沒有任何相關(guān)關(guān)系,,序列在進行完全無序的隨機波動,,可以終止對該序列的分析。白噪聲序列是沒有信息可提取的平穩(wěn)序列,。


對于平穩(wěn)非白噪聲序列,,它的均值和方差是常數(shù)。通常是建立一個線性模型來擬合該序列的發(fā)展,,借此提取該序列的有用信息,。ARMA模型是最常用的平穩(wěn)序列擬合模型,。


二,、平穩(wěn)時間序列建模

某個時間序列經(jīng)過預(yù)處理,被判定為平穩(wěn)非白噪聲序列,就可以進行時間序列建模,。

 

建模步驟:

(1)計算出該序列的自相關(guān)系數(shù)(ACF)和偏相關(guān)系數(shù)(PACF),;

(2)模型識別,也稱模型定階,。根據(jù)系數(shù)情況從AR(p)模型,、MA(q)模型、ARMA(p,,q)模型,、ARIMApd,,q)模型中選擇合適模型,,其中p為自回歸項,d為差分階數(shù),,q為移動平均項數(shù),。

 

下面是平穩(wěn)序列的模型選擇:

自相關(guān)系數(shù)(ACF)

偏相關(guān)系數(shù)(PACF)

選擇模型

拖尾

p階截尾

AR(p)

q階截尾

拖尾

MA(q)

p階拖尾

q階拖尾

ARMA(pq)

 

 ARIMA 是 ARMA 算法的擴展版,,用法類似 ,。


(3)估計模型中的未知參數(shù)的值并對參數(shù)進行檢驗;

(4)模型檢驗,;

(5)模型優(yōu)化,;

(6)模型應(yīng)用:進行短期預(yù)測。

 

三,、python實例操作

以下為某店鋪2015/1/1~2015/2/6的銷售數(shù)據(jù),以此建模預(yù)測2015/2/7~2015/2/11的銷售數(shù)據(jù),。



 

 

#-*- coding: utf-8 -*-
#arima時序模型

import pandas as pd

#參數(shù)初始化
discfile = 'E:/destop/text/arima_data.xls'
forecastnum = 5

#讀取數(shù)據(jù),指定日期列為指標(biāo),,Pandas自動將“日期”列識別為Datetime格式
data = pd.read_excel(discfile, index_col = u'日期')

#時序圖
import matplotlib.pyplot as plt

#用來正常顯示中文標(biāo)簽

plt.rcParams['font.sans-serif'] = ['SimHei'


#用來正常顯示負號

plt.rcParams['axes.unicode_minus'] = False
data.plot()
plt.show()

 

 

#自相關(guān)圖
from statsmodels.graphics.tsaplots import plot_acf
plot_acf(data).show()

 



#平穩(wěn)性檢測
from statsmodels.tsa.stattools import adfuller as ADF
print(u'原始序列的ADF檢驗結(jié)果為:', ADF(data[u'銷量']))


#返回值依次為adf,、pvalue、usedlag,、nobs,、critical values、icbest,、regresults,、resstore

原始序列的單位根(adf)檢驗

adf

cValue

p值

1%

5%

10%

1.81

-3.7112

-2.9812

-2.6301

0.9984

 

Pdf值大于三個水平值,p值顯著大于0.05,,該序列為非平穩(wěn)序列,。

 

 

#差分后的結(jié)果
D_data = data.diff().dropna()
D_data.columns = [
u'銷量差分']


#時序圖

D_data.plot()
plt.show()

 



#自相關(guān)圖

plot_acf(D_data).show()

plt.show()




from statsmodels.graphics.tsaplots import plot_pacf


#偏自相關(guān)圖

plot_pacf(D_data).show()

 


#平穩(wěn)性檢測

print(u'差分序列的ADF檢驗結(jié)果為:', ADF(D_data[u'銷量差分']))


一階差分后序列的單位根(adf)檢驗

adf

cValue

p值

1%

5%

10%

-3.15

-3.6327

-2.9485

-2.6130

0.0227

 

Pdf值小于兩個水平值,p值顯著小于0.05,,一階差分后序列為平穩(wěn)序列,。

 


#白噪聲檢驗
from statsmodels.stats.diagnostic import acorr_ljungbox


#返回統(tǒng)計量和p值

print(u'差分序列的白噪聲檢驗結(jié)果為:', acorr_ljungbox(D_data, lags=1))


一階差分后序列的白噪聲檢驗

stat

P值

11.304

0.007734 


P值小于0.05,所以一階差分后的序列為平穩(wěn)非白噪聲序列。

 


from statsmodels.tsa.arima_model import ARIMA
#定階

#一般階數(shù)不超過length/10

pmax = int(len(D_data)/10


#一般階數(shù)不超過length/10

qmax = int(len(D_data)/10


#bic矩陣

bic_matrix = []
for p in range(pmax+1):
  tmp = []
  
for q in range(qmax+1):


#存在部分報錯,,所以用try來跳過報錯,。

    try:
      tmp.append(ARIMA(data, (p,1,q)).fit().bic)
    
except:
      tmp.append(
None)
  bic_matrix.append(tmp)

#從中可以找出最小值

bic_matrix = pd.DataFrame(bic_matrix)

#先用stack展平,然后用idxmin找出最小值位置,。

p,q = bic_matrix.stack().idxmin() 


print(u'BIC最小的p值和q值為:%s,、%s' %(p,q))


取BIC信息量達到最小的模型階數(shù),結(jié)果p為0,,q為1,,定階完成。


 #建立ARIMA(0, 1, 1)模型

model = ARIMA(data, (p,1,q)).fit() 

#給出一份模型報告

model.summary2() 


#作為期5天的預(yù)測,,返回預(yù)測結(jié)果,、標(biāo)準(zhǔn)誤差、置信區(qū)間,。

model.forecast(5)


最終模型預(yù)測值如下:


2015/2/7

2015/2/8

2015/2/9

2015/2/10

2015/2/11

4874.0

4923.9

4973.9

5023.8

5073.8

 

利用模型向前預(yù)測的時間越長,,預(yù)測的誤差將會越大,這是時間預(yù)測的典型特點,。

 

參數(shù)檢驗如下:


Coef.

Std.Err.

t

P值

const

49.956

20.139

2.4806

0.0182

ma.L1.D.銷量

0.671

0.1648

4.0712

0.0003

 

從檢驗結(jié)果p值來看,,建立的模型效果良好。



    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多