久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

水務(wù)一線 | XGBoost集成模型——靈活的邊界流量計(jì)日流量預(yù)測(cè)方法

 凈水技術(shù) 2020-12-01



欄目導(dǎo)讀

新一代信息技術(shù)的加速變革支撐了智慧水務(wù)的飛速發(fā)展,現(xiàn)代化水廠的建設(shè)為我國(guó)供水行業(yè)的整體發(fā)展帶來了很大的借鑒與思考,?!八畡?wù)一線”分享基層水廠、污水廠日常工作中的科技創(chuàng)新,、技改創(chuàng)新,、應(yīng)用創(chuàng)新或管理創(chuàng)新等,可供相關(guān)的水廠提供參考和借鑒,,希望可以帶來更多思想的碰撞與火花,。

本期摘要


流量計(jì)量的準(zhǔn)確性,直接關(guān)系到水務(wù)企業(yè)日常運(yùn)行管理的精細(xì)化水平,,但受限于多方面原因,,不可避免地存在一定的計(jì)量誤差,為水務(wù)企業(yè)管理能級(jí)的提升帶來瓶頸,。運(yùn)用XGBoost集成模型以正常工作狀態(tài)下的全數(shù)據(jù)為基礎(chǔ),,結(jié)合各種區(qū)域特征因素(天氣、日期,、相關(guān)正常流量計(jì),、相關(guān)正常壓力計(jì)、相關(guān)水廠、相關(guān)供水區(qū)域等)進(jìn)行修正,,達(dá)到誤差在2%左右的預(yù)測(cè),,對(duì)水務(wù)企業(yè)提高水量調(diào)度的精準(zhǔn)度帶來新的選項(xiàng)。

電磁流量計(jì)是基于電磁感應(yīng)原理所制成的進(jìn)行流量測(cè)量的專業(yè)儀器,,可以對(duì)導(dǎo)電液體體積流量等進(jìn)行精確測(cè)量,。一般電磁流量計(jì)都有一圈磁線圈,當(dāng)導(dǎo)電流體通過流量計(jì)的腔體時(shí),,會(huì)切割磁感線產(chǎn)生磁感應(yīng)強(qiáng)度,,將其轉(zhuǎn)換為電流,并最終轉(zhuǎn)換為流量數(shù)字,。在整個(gè)過程中,,必須保證磁感應(yīng)強(qiáng)度保持相對(duì)穩(wěn)定,但是在實(shí)際應(yīng)用中,,電磁流量會(huì)收到外部因素和內(nèi)部導(dǎo)電流體的干擾,,導(dǎo)致計(jì)量失準(zhǔn)。

采用XGBoost集成模型構(gòu)建邊界流量計(jì)流量預(yù)測(cè)模型,,可以在修正流量計(jì)非正常工作狀態(tài)下計(jì)量的水量,,提高工作成效。

電磁流量計(jì)構(gòu)造

一 回歸建模


1 XGBoost集成模型




XGBoost(eXtreme Gradient Boosting),,是傳統(tǒng)boosting方法的一種極好實(shí)現(xiàn),,基本原理是把數(shù)千個(gè)精度較低的樹模型組合成一個(gè)精度較高的模型。

XGBoost的基學(xué)習(xí)器既有樹(gbtree)又有線性分類器(gblinear),,從而得到L1+L2懲罰的線性回歸或邏輯回歸,,其損失函數(shù)采用二階泰勒展開,具有高準(zhǔn)確度,、不易過擬合,、可擴(kuò)展性等特點(diǎn),能分布式處理高維稀疏特征,。

XGBoost算法基本原理的特性,,對(duì)數(shù)據(jù)波動(dòng)較大、受外界影響較大,、特征因子較多的數(shù)據(jù)集有很好的適用性,,能夠在水務(wù)行業(yè)邊界流量計(jì)流量預(yù)測(cè)中取得較好的應(yīng)用效果。


2 評(píng)價(jià)標(biāo)準(zhǔn)




平均絕對(duì)值誤差(mean absolute error),,如式(1),。

    (1)

平均相對(duì)誤差(mean relative error),如式(2),。

(2)

其中nsamples——樣本數(shù)量;

yi——真實(shí)值,;

預(yù)測(cè)值,。


二 離散型變量數(shù)值型轉(zhuǎn)化

在使用Python進(jìn)行數(shù)據(jù)分析時(shí),,會(huì)遇到多種多樣的數(shù)據(jù)類型。如水量,、氣溫等數(shù)值型的特征變量,,還會(huì)遇到天氣變化、季節(jié)氣候等離散型變量,。

對(duì)于離散型的變量,,必須進(jìn)行數(shù)值化處理之后才能進(jìn)行計(jì)算,一般的離散型變量數(shù)值型轉(zhuǎn)化有2種方法,。

(1)one-hot編碼,,又稱“獨(dú)熱編碼”

基本原理是用N位狀態(tài)寄存器編碼N個(gè)狀態(tài),每個(gè)狀態(tài)都有獨(dú)立的寄存器位,,且這些寄存器位中只有1位有效,,簡(jiǎn)單數(shù)就是每1列特征的每1個(gè)獨(dú)立的值只能有一個(gè)狀態(tài)。

處理前(a)和處理后(b)one-hot編碼

(2)label編碼

利用pandas計(jì)算包中的categoricals數(shù)據(jù)類型對(duì)離散新數(shù)據(jù)進(jìn)行處理,。Categorical類型的數(shù)據(jù)可以具有特定的順序,,如:按程度來設(shè)定,“強(qiáng)烈同意”與“同意”,、“首次觀察”與“二次觀察”,。通過label編碼,將離散型變量數(shù)值化,。

處理前(a)和處理后(b)label編碼

三 邊界流量計(jì)流量預(yù)測(cè)模型


1 數(shù)據(jù)描述




原始的流量計(jì)水量數(shù)據(jù)只有供水日期這1個(gè)特征,,單一的特征會(huì)造成預(yù)測(cè)模型欠擬合。因此,,需進(jìn)一步考察挖掘影響流量計(jì)水量計(jì)量的多方面特征,,同時(shí)將日期信息細(xì)化,并進(jìn)一步挖掘相關(guān)流量計(jì),、相關(guān)壓力計(jì)和相關(guān)區(qū)域水量特征,,衍生出一系列影響供水量的特征,結(jié)合這些特征因子和實(shí)際供水量訓(xùn)練流量計(jì)流量預(yù)測(cè)模型,。

通過Pearson相關(guān)系數(shù)法計(jì)算得到各特征與水量之間的相關(guān)性,,并通過相關(guān)較高的數(shù)值型變量進(jìn)一步挖掘得到取對(duì)數(shù)、開根號(hào),、求E及多項(xiàng)式這4個(gè)特征值,。

2 直接預(yù)測(cè)法




直接預(yù)測(cè)法是指直接以流量計(jì)正常工作狀態(tài)下的日水量數(shù)據(jù)為基礎(chǔ),結(jié)合擴(kuò)展特征進(jìn)行預(yù)測(cè),。

以某公司某DN1000流量計(jì)2017年1月1日—2019年2月14日共775條數(shù)據(jù)為例,,此流量計(jì)上游離某大型水廠的出水管較近,并受附近1個(gè)泵站的影響,干擾較大,。通過Pearson相關(guān)系數(shù)法計(jì)算得到各特征的相關(guān)性,。其中,數(shù)字越大,,表明與流量計(jì)水量的相關(guān)性越大,,最終取≥0.15的特征進(jìn)行最終運(yùn)算。

 Pearson相關(guān)系數(shù)

對(duì)相關(guān)性最高的滬太路DN500進(jìn)行取對(duì)數(shù)和開根號(hào)處理,,得到和log10滬太路DN500,。選取相關(guān)性較高的滬太路DN500、泰和水廠和汶水泵站(進(jìn)站壓力)3個(gè)特征,,進(jìn)行多項(xiàng)式運(yùn)算得式(3),。

多項(xiàng)式=3×滬太路DN500+2×泰和水廠+汶水泵站(進(jìn)站壓力)
(3)

深度挖掘構(gòu)造的3個(gè)特征通過Pearson相關(guān)系數(shù)法計(jì)算后得到較好的相關(guān)性。

Pearson相關(guān)系數(shù)

將整體數(shù)據(jù)劃分為測(cè)試集和訓(xùn)練集,,使用XGBoost集成模型建立某DN1000流量計(jì)日水量預(yù)測(cè)模型,,模型在測(cè)試集上的平均絕對(duì)誤差(MAE)為8 276 t、平均相對(duì)誤差(MRE)為2.7%,。

3 倒推計(jì)算法




倒推預(yù)測(cè)法是通過此流量計(jì)所在供水區(qū)域的日水量預(yù)測(cè),,倒推出此流量計(jì)的日水量。與直接預(yù)測(cè)法相比,,倒推預(yù)測(cè)法的優(yōu)勢(shì)在于,,當(dāng)無法取得流量計(jì)正常工作狀態(tài)下的日水量進(jìn)行模型運(yùn)算時(shí),可以通過間接的倒推法避開直接運(yùn)算流量計(jì)水量,,利用總水量減去剩余水量得到目標(biāo)流量計(jì)預(yù)測(cè)水量,。

以上海市城投水務(wù)(集團(tuán))有限公司供水分公司某DN1200流量計(jì)為例,利用倒推法進(jìn)行預(yù)測(cè),,使用此流量計(jì)所在供水區(qū)域2017年1月1日—2018年9月30日共638條日水量數(shù)據(jù),。

Pearson相關(guān)系數(shù)

通過Pearson相關(guān)系數(shù)法計(jì)算得到各特征的相關(guān)性。其中,,數(shù)字越大,,表明與水量的相關(guān)性越大,取≥0.15的特征進(jìn)行最終運(yùn)算,,得到區(qū)域總?cè)展┧康?6個(gè)特征和區(qū)域剩余日供水量的27個(gè)特征,。

將整體數(shù)據(jù)劃分為測(cè)試集和訓(xùn)練集,使用XGBoost集成模型建立水量預(yù)測(cè)模型,,模型在測(cè)試集上:總供水量的平均絕對(duì)誤差(MAE)為3 365 t,、平均相對(duì)誤差(MRE)為1.5%;剩余供水量的平均絕對(duì)誤差(MAE)為4 314 t,、平均相對(duì)誤差(MRE)為2.1%,。驗(yàn)證結(jié)果表明,,XGBoost總供水量預(yù)測(cè)模型和剩余供水量預(yù)測(cè)模型的平均相對(duì)偏差為1.8%,總?cè)展┧亢褪S嗳展┧款A(yù)測(cè)模型的精度滿足計(jì)算要求,,因此,,二者相減的結(jié)果可以用于流量計(jì)日流量的預(yù)測(cè)。


四 結(jié)語

XGBoost集成模型作為機(jī)器學(xué)習(xí)領(lǐng)域里重要的模型之一,,通過集成若干個(gè)學(xué)習(xí)器,構(gòu)造一個(gè)學(xué)習(xí)能力較強(qiáng)的學(xué)習(xí)器,,不僅能很好地?cái)M合訓(xùn)練集,,還能在測(cè)試集上有很好的表現(xiàn)。將XGBoost集成模型引入邊界流量計(jì)日流量預(yù)測(cè)中,,非常符合邊界流量計(jì)數(shù)據(jù)波動(dòng)較大,、受外界影響較大、特征因子較多的特點(diǎn),。最終取得的模型精度較高,,有較好的泛化能力,并通過直接預(yù)測(cè)法和倒推預(yù)測(cè)法相結(jié)合的方式,,可應(yīng)對(duì)多種情況,;靈活性較高,可應(yīng)用于實(shí)際工作中,,修正流量計(jì)非正常工作狀態(tài)下計(jì)量的水量,,有效解決相關(guān)供水區(qū)域之間產(chǎn)生的水量誤差。

更多信息

作者簡(jiǎn)介

高赫余,,男,,研究方向?yàn)闄C(jī)器學(xué)習(xí)在供水行業(yè)的使用,E-mial:[email protected],。

本文發(fā)表在《凈水技術(shù)》2020年第10期“‘清時(shí)捷’供排水企業(yè)運(yùn)行及管理成果專欄”,,掃描二維碼可閱讀全文。


“清時(shí)捷”供排水企業(yè)運(yùn)行及管理成果專欄
征稿內(nèi)容:我國(guó)基層水廠,、污水廠日常工作中的科技創(chuàng)新,、技改創(chuàng)新、應(yīng)用創(chuàng)新或管理創(chuàng)新等,。

特色服務(wù):快速審稿錄用,、版面費(fèi)全免、快速發(fā)表優(yōu)先出版,、責(zé)編一對(duì)一修改指導(dǎo),、稿酬、清時(shí)捷杯專欄優(yōu)秀論文獎(jiǎng),。

投稿方式:網(wǎng)址zsjs.cbpt.cnki.net,,或掃描名片二維碼咨詢專欄責(zé)任編輯阮辰旼,,13585990831。


作者:高赫余,、王圣,、吳瀟勇

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多