欄目導(dǎo)讀 本期摘要 電磁流量計(jì)是基于電磁感應(yīng)原理所制成的進(jìn)行流量測(cè)量的專業(yè)儀器,,可以對(duì)導(dǎo)電液體體積流量等進(jìn)行精確測(cè)量,。一般電磁流量計(jì)都有一圈磁線圈,當(dāng)導(dǎo)電流體通過流量計(jì)的腔體時(shí),,會(huì)切割磁感線產(chǎn)生磁感應(yīng)強(qiáng)度,,將其轉(zhuǎn)換為電流,并最終轉(zhuǎn)換為流量數(shù)字,。在整個(gè)過程中,,必須保證磁感應(yīng)強(qiáng)度保持相對(duì)穩(wěn)定,但是在實(shí)際應(yīng)用中,,電磁流量會(huì)收到外部因素和內(nèi)部導(dǎo)電流體的干擾,,導(dǎo)致計(jì)量失準(zhǔn)。 采用XGBoost集成模型構(gòu)建邊界流量計(jì)流量預(yù)測(cè)模型,,可以在修正流量計(jì)非正常工作狀態(tài)下計(jì)量的水量,,提高工作成效。 一 回歸建模 1 XGBoost集成模型XGBoost(eXtreme Gradient Boosting),,是傳統(tǒng)boosting方法的一種極好實(shí)現(xiàn),,基本原理是把數(shù)千個(gè)精度較低的樹模型組合成一個(gè)精度較高的模型。 XGBoost的基學(xué)習(xí)器既有樹(gbtree)又有線性分類器(gblinear),,從而得到帶L1+L2懲罰的線性回歸或邏輯回歸,,其損失函數(shù)采用二階泰勒展開,具有高準(zhǔn)確度,、不易過擬合,、可擴(kuò)展性等特點(diǎn),能分布式處理高維稀疏特征,。 XGBoost算法基本原理的特性,,對(duì)數(shù)據(jù)波動(dòng)較大、受外界影響較大,、特征因子較多的數(shù)據(jù)集有很好的適用性,,能夠在水務(wù)行業(yè)邊界流量計(jì)流量預(yù)測(cè)中取得較好的應(yīng)用效果。 2 評(píng)價(jià)標(biāo)準(zhǔn)平均絕對(duì)值誤差(mean absolute error),,如式(1),。 平均相對(duì)誤差(mean relative error),如式(2),。 其中:nsamples——樣本數(shù)量; yi——真實(shí)值,; 預(yù)測(cè)值,。 二 離散型變量數(shù)值型轉(zhuǎn)化 在使用Python進(jìn)行數(shù)據(jù)分析時(shí),,會(huì)遇到多種多樣的數(shù)據(jù)類型。如水量,、氣溫等數(shù)值型的特征變量,,還會(huì)遇到天氣變化、季節(jié)氣候等離散型變量,。 對(duì)于離散型的變量,,必須進(jìn)行數(shù)值化處理之后才能進(jìn)行計(jì)算,一般的離散型變量數(shù)值型轉(zhuǎn)化有2種方法,。 (1)one-hot編碼,,又稱“獨(dú)熱編碼” 基本原理是用N位狀態(tài)寄存器編碼N個(gè)狀態(tài),每個(gè)狀態(tài)都有獨(dú)立的寄存器位,,且這些寄存器位中只有1位有效,,簡(jiǎn)單數(shù)就是每1列特征的每1個(gè)獨(dú)立的值只能有一個(gè)狀態(tài)。 (2)label編碼 利用pandas計(jì)算包中的categoricals數(shù)據(jù)類型對(duì)離散新數(shù)據(jù)進(jìn)行處理,。Categorical類型的數(shù)據(jù)可以具有特定的順序,,如:按程度來設(shè)定,“強(qiáng)烈同意”與“同意”,、“首次觀察”與“二次觀察”,。通過label編碼,將離散型變量數(shù)值化,。 三 邊界流量計(jì)流量預(yù)測(cè)模型 1 數(shù)據(jù)描述原始的流量計(jì)水量數(shù)據(jù)只有供水日期這1個(gè)特征,,單一的特征會(huì)造成預(yù)測(cè)模型欠擬合。因此,,需進(jìn)一步考察挖掘影響流量計(jì)水量計(jì)量的多方面特征,,同時(shí)將日期信息細(xì)化,并進(jìn)一步挖掘相關(guān)流量計(jì),、相關(guān)壓力計(jì)和相關(guān)區(qū)域水量特征,,衍生出一系列影響供水量的特征,結(jié)合這些特征因子和實(shí)際供水量訓(xùn)練流量計(jì)流量預(yù)測(cè)模型,。 通過Pearson相關(guān)系數(shù)法計(jì)算得到各特征與水量之間的相關(guān)性,,并通過相關(guān)較高的數(shù)值型變量進(jìn)一步挖掘得到取對(duì)數(shù)、開根號(hào),、求E及多項(xiàng)式這4個(gè)特征值,。 2 直接預(yù)測(cè)法直接預(yù)測(cè)法是指直接以流量計(jì)正常工作狀態(tài)下的日水量數(shù)據(jù)為基礎(chǔ),結(jié)合擴(kuò)展特征進(jìn)行預(yù)測(cè),。 以某公司某DN1000流量計(jì)2017年1月1日—2019年2月14日共775條數(shù)據(jù)為例,,此流量計(jì)上游離某大型水廠的出水管較近,并受附近1個(gè)泵站的影響,干擾較大,。通過Pearson相關(guān)系數(shù)法計(jì)算得到各特征的相關(guān)性,。其中,數(shù)字越大,,表明與流量計(jì)水量的相關(guān)性越大,,最終取≥0.15的特征進(jìn)行最終運(yùn)算。 對(duì)相關(guān)性最高的滬太路DN500進(jìn)行取對(duì)數(shù)和開根號(hào)處理,,得到和log10滬太路DN500,。選取相關(guān)性較高的滬太路DN500、泰和水廠和汶水泵站(進(jìn)站壓力)3個(gè)特征,,進(jìn)行多項(xiàng)式運(yùn)算得式(3),。 深度挖掘構(gòu)造的3個(gè)特征通過Pearson相關(guān)系數(shù)法計(jì)算后得到較好的相關(guān)性。 將整體數(shù)據(jù)劃分為測(cè)試集和訓(xùn)練集,,使用XGBoost集成模型建立某DN1000流量計(jì)日水量預(yù)測(cè)模型,,模型在測(cè)試集上的平均絕對(duì)誤差(MAE)為8 276 t、平均相對(duì)誤差(MRE)為2.7%,。 3 倒推計(jì)算法倒推預(yù)測(cè)法是通過此流量計(jì)所在供水區(qū)域的日水量預(yù)測(cè),,倒推出此流量計(jì)的日水量。與直接預(yù)測(cè)法相比,,倒推預(yù)測(cè)法的優(yōu)勢(shì)在于,,當(dāng)無法取得流量計(jì)正常工作狀態(tài)下的日水量進(jìn)行模型運(yùn)算時(shí),可以通過間接的倒推法避開直接運(yùn)算流量計(jì)水量,,利用總水量減去剩余水量得到目標(biāo)流量計(jì)預(yù)測(cè)水量,。 以上海市城投水務(wù)(集團(tuán))有限公司供水分公司某DN1200流量計(jì)為例,利用倒推法進(jìn)行預(yù)測(cè),,使用此流量計(jì)所在供水區(qū)域2017年1月1日—2018年9月30日共638條日水量數(shù)據(jù),。 通過Pearson相關(guān)系數(shù)法計(jì)算得到各特征的相關(guān)性。其中,,數(shù)字越大,,表明與水量的相關(guān)性越大,取≥0.15的特征進(jìn)行最終運(yùn)算,,得到區(qū)域總?cè)展┧康?6個(gè)特征和區(qū)域剩余日供水量的27個(gè)特征,。 將整體數(shù)據(jù)劃分為測(cè)試集和訓(xùn)練集,使用XGBoost集成模型建立水量預(yù)測(cè)模型,,模型在測(cè)試集上:總供水量的平均絕對(duì)誤差(MAE)為3 365 t,、平均相對(duì)誤差(MRE)為1.5%;剩余供水量的平均絕對(duì)誤差(MAE)為4 314 t,、平均相對(duì)誤差(MRE)為2.1%,。驗(yàn)證結(jié)果表明,,XGBoost總供水量預(yù)測(cè)模型和剩余供水量預(yù)測(cè)模型的平均相對(duì)偏差為1.8%,總?cè)展┧亢褪S嗳展┧款A(yù)測(cè)模型的精度滿足計(jì)算要求,,因此,,二者相減的結(jié)果可以用于流量計(jì)日流量的預(yù)測(cè)。 四 結(jié)語 XGBoost集成模型作為機(jī)器學(xué)習(xí)領(lǐng)域里重要的模型之一,,通過集成若干個(gè)學(xué)習(xí)器,構(gòu)造一個(gè)學(xué)習(xí)能力較強(qiáng)的學(xué)習(xí)器,,不僅能很好地?cái)M合訓(xùn)練集,,還能在測(cè)試集上有很好的表現(xiàn)。將XGBoost集成模型引入邊界流量計(jì)日流量預(yù)測(cè)中,,非常符合邊界流量計(jì)數(shù)據(jù)波動(dòng)較大,、受外界影響較大、特征因子較多的特點(diǎn),。最終取得的模型精度較高,,有較好的泛化能力,并通過直接預(yù)測(cè)法和倒推預(yù)測(cè)法相結(jié)合的方式,,可應(yīng)對(duì)多種情況,;靈活性較高,可應(yīng)用于實(shí)際工作中,,修正流量計(jì)非正常工作狀態(tài)下計(jì)量的水量,,有效解決相關(guān)供水區(qū)域之間產(chǎn)生的水量誤差。 更多信息 作者簡(jiǎn)介 |
|