劉 婷,謝孟霞,,王 婷,,張 琦 (中國鐵路哈爾濱局集團有限公司信息技術(shù)所,哈爾濱 150006) 數(shù)據(jù)是一種資產(chǎn),,也是一種生產(chǎn)要素,,可以提供強大的決策力,隨著時間的沉淀,,最終會成為海量的,、高增長率的、多樣化的信息資產(chǎn),。在大數(shù)據(jù)的分析與應(yīng)用盛行的時代,,大數(shù)據(jù)技術(shù)已經(jīng)深入到各行各業(yè)之中,其地位也在日益凸顯,。在大數(shù)據(jù)戰(zhàn)略的背景下,,吹響了加快發(fā)展數(shù)字經(jīng)濟、建設(shè)數(shù)字中國的號角,。標志著大數(shù)據(jù)正式成為我國戰(zhàn)略規(guī)劃的核心任務(wù)之一,,研究和發(fā)展大數(shù)據(jù)技術(shù)已經(jīng)成為必然趨勢[1]。 鐵路貨運是我國交通行業(yè)的重要組成部分,。隨著貨運組織改革的不斷推進,,中國國家鐵路集團有限公司已相繼推廣了貨運電子商務(wù)、調(diào)度,、現(xiàn)車及貨票等主干貨物運輸支撐信息管理系統(tǒng),,目前已累積大量數(shù)據(jù)。據(jù)初步統(tǒng)計,,國鐵集團及各鐵路局集團公司存儲的數(shù)據(jù)總量已達到10 PB的數(shù)據(jù)級[2],,且各類數(shù)據(jù)增量很快,所以中國鐵路貨運正處于大數(shù)據(jù)時代,。 1 鐵路貨運大數(shù)據(jù)現(xiàn)狀與解決方案1.1 鐵路貨運大數(shù)據(jù)存在的不足1.1.1 貨運系統(tǒng)的建設(shè)過程中,,各管理系統(tǒng)比較獨立 隨著信息化的不斷建設(shè),哈爾濱局集團公司已完成了貨運電子商務(wù)系統(tǒng),、東北快運系統(tǒng),、貨票系統(tǒng)及貨運站系統(tǒng)等貨運業(yè)務(wù)系統(tǒng)推廣工作。首先,,在這些系統(tǒng)陸續(xù)推廣與使用后,,每天會產(chǎn)生大量業(yè)務(wù)數(shù)據(jù),但是各系統(tǒng)之間耦合度不高,,大部分數(shù)據(jù)只在系統(tǒng)內(nèi)部進行分析,,缺少橫向綜合對比,這直接限制了系統(tǒng)發(fā)揮更大的作用,,對于數(shù)據(jù)背后的價值不能進行深入地挖掘,。其次,數(shù)據(jù)共享備份不夠,,如果各業(yè)務(wù)系統(tǒng)出現(xiàn)故障,,將會產(chǎn)生數(shù)據(jù)二義問題。最后,,特別是數(shù)據(jù)字典需要多方提供,,不能避免數(shù)據(jù)有沖突,所以需要加強統(tǒng)一管理維護,。因此,,需要將各信息系統(tǒng)的數(shù)據(jù)進行集中整合,才能更好地服務(wù)于鐵路貨運業(yè)務(wù),。 1.1.2 數(shù)據(jù)源錄入不夠準確 數(shù)據(jù)是業(yè)務(wù)分析和指揮決策的基礎(chǔ),,如果基礎(chǔ)數(shù)據(jù)不準確將嚴重影響數(shù)據(jù)的分析結(jié)果,因此數(shù)據(jù)的準確性對大數(shù)據(jù)平臺的應(yīng)用效果起到重要作用,。目前,,由于鐵路貨運中各個系統(tǒng)的基礎(chǔ)數(shù)據(jù)均是由車站人工錄入,在錄入數(shù)據(jù)的過程中,,數(shù)據(jù)標準化程度不高,,影響數(shù)據(jù)質(zhì)量。同時在錄入過程中也存在數(shù)據(jù)不一致和數(shù)據(jù)不準確的問題,,這會直接導(dǎo)致后續(xù)對數(shù)據(jù)的操作及得出的結(jié)論失去意義,。 1.1.3 數(shù)據(jù)分析技術(shù)能力不足 數(shù)據(jù)分析是一個清理、轉(zhuǎn)換,、進行數(shù)據(jù)建模的過程,,從而得出結(jié)論并支持決策。目前數(shù)據(jù)分析統(tǒng)計仍采用傳統(tǒng)的手工統(tǒng)計或數(shù)據(jù)庫技術(shù),,而使用數(shù)據(jù)處理技術(shù)進行大數(shù)據(jù)的應(yīng)用分析缺少專用技術(shù)與工具的支撐,,數(shù)據(jù)的可用性不強、時效性低,,對決策不能提供很好的數(shù)據(jù)支持,。 1.1.4 鐵路貨運數(shù)據(jù)共享模式不成熟 數(shù)據(jù)共享的目的是為了提高信息的利用率,減少“信息孤島”效應(yīng),。在數(shù)據(jù)采集,、整合等方面也會節(jié)約一定的成本。但是由于目前各部門之間的合作模式不清晰,,有些鐵路業(yè)務(wù)數(shù)據(jù)是不愿意提供的,,從而加大了數(shù)據(jù)采集的難度。因此,如何達成不同部門之間的合作共贏模式成為了數(shù)據(jù)融合的先決條件,。通過有效的措施促進數(shù)據(jù)融合,,從而形成覆蓋更大領(lǐng)域的數(shù)據(jù)集合,全面深化大數(shù)據(jù)的應(yīng)用范圍,,真正地為各項決策提供數(shù)據(jù)支持,。 1.2 數(shù)據(jù)整合的解決方案1.2.1 做好數(shù)據(jù)質(zhì)量保障工作 數(shù)據(jù)的質(zhì)量決定著大數(shù)據(jù)平臺的效果,做好數(shù)據(jù)質(zhì)量的保障工作是發(fā)揮大數(shù)據(jù)平臺作用的前提,。首先,,通過考核制度提高操作人員的技術(shù)水平,盡可能保證數(shù)據(jù)在錄入階段的準確性,。避免因為初始數(shù)據(jù)的錯誤錄入而導(dǎo)致后續(xù)操作失效的問題發(fā)生,。其次,在數(shù)據(jù)交換過程中需要完善的制度標準,,明確交換機制及雙方責任,,有效地執(zhí)行數(shù)據(jù)交換標準。最后,,可以通過開發(fā)適合公司的數(shù)據(jù)管理系統(tǒng),,在采集數(shù)據(jù)后對數(shù)據(jù)進行有效清洗并做到規(guī)范化,為后期數(shù)據(jù)挖掘和分析提供更高質(zhì)量的可信數(shù)據(jù),。 1.2.2 建立數(shù)據(jù)倉庫 數(shù)據(jù)倉庫是用于數(shù)據(jù)管理的工具,,構(gòu)建數(shù)據(jù)倉庫可以提供一個支持決策分析的環(huán)境,從不同的數(shù)據(jù)源中獲取數(shù)據(jù),、組織數(shù)據(jù),,進而更加有效地進行業(yè)務(wù)決策。將目前與鐵路貨運相關(guān)的生產(chǎn)系統(tǒng)中的數(shù)據(jù)進行提取與清洗,,并存儲到數(shù)據(jù)倉庫中,,在經(jīng)過篩選處理可以提高數(shù)據(jù)的價值。 1.2.3 數(shù)據(jù)安全治理 在數(shù)據(jù)采集,、處理和共享等方面都存在安全威脅,,在大數(shù)據(jù)時代確保敏感數(shù)據(jù)的安全性尤為重要。鐵路貨運大數(shù)據(jù)平臺存儲與處理不同安全級別的數(shù)據(jù),,在數(shù)據(jù)共享的同時會帶來更多的安全隱患,,所以需要建立一套完善的、覆蓋數(shù)據(jù)整個生命周期的數(shù)據(jù)安全保障體系,。同時可以通過大數(shù)據(jù)平臺安全評估體系,,來進一步確保數(shù)據(jù)安全。 2 大數(shù)據(jù)平臺架構(gòu)及關(guān)鍵技術(shù)建立鐵路貨運大數(shù)據(jù)平臺首先要梳理出現(xiàn)有的數(shù)據(jù)資源,,明確大數(shù)據(jù)平臺的應(yīng)用主題,,對于梳理好的數(shù)據(jù)經(jīng)過數(shù)據(jù)治理后加載到大數(shù)據(jù)平臺,,通過大數(shù)據(jù)平臺應(yīng)用層進行分析和綜合展示,提供有效信息,、支持決策[3],。建立鐵路貨運大數(shù)據(jù)平臺主要分為建立數(shù)據(jù)采集層、數(shù)據(jù)傳輸層,、數(shù)據(jù)存儲層,、數(shù)據(jù)分析層及數(shù)據(jù)展示層5個層面,,如圖1所示,。 圖1 鐵路貨運大數(shù)據(jù)平臺架構(gòu) 2.1 平臺數(shù)據(jù)采集層鐵路貨運大數(shù)據(jù)主要分為鐵路綜合辦公網(wǎng)生產(chǎn)數(shù)據(jù)和互聯(lián)網(wǎng)類數(shù)據(jù)2種。貨運電子商務(wù)系統(tǒng),、東北快運系統(tǒng),、貨運調(diào)度系統(tǒng)、貨運計劃系統(tǒng),、現(xiàn)車系統(tǒng),、貨運站系統(tǒng)及貨票系統(tǒng)是鐵路內(nèi)部數(shù)據(jù)的主要數(shù)據(jù)源。鐵路是運輸服務(wù)型企業(yè),,需要時刻關(guān)注政府的發(fā)展規(guī)劃,,客戶的需求與反饋意見,以及經(jīng)濟政策和市場動態(tài)等多方面信息,,還需要掌握公路,、水路價格及相關(guān)運量數(shù)據(jù),這些互聯(lián)網(wǎng)類的數(shù)據(jù)對鐵路貨運業(yè)務(wù)拓展也起到指導(dǎo)性作用,,可以為集團公司后期的決策分析提供支持,。 通過網(wǎng)絡(luò)爬蟲技術(shù)獲取萬維網(wǎng)數(shù)據(jù),同時為了提高抓取性能,,加快抓取速度,,貨運大數(shù)據(jù)平臺采用Java多線程技術(shù),并行處理多個URL連接,,從而實現(xiàn)快速且高效的信息采集,;同時采用廣度優(yōu)先策略,以分層的方式進行網(wǎng)頁抓取,,可以大大降低服務(wù)器的內(nèi)存消耗,。 2.2 平臺數(shù)據(jù)傳輸層數(shù)據(jù)傳輸層包括鐵路綜合辦公網(wǎng)及互聯(lián)網(wǎng)。內(nèi)網(wǎng)與外網(wǎng)間采用鐵路安全平臺進行阻隔,,確?;ヂ?lián)網(wǎng)數(shù)據(jù)安全傳輸?shù)絻?nèi)網(wǎng)進行使用,有效保護鐵路內(nèi)部辦公網(wǎng)絡(luò)的安全,。集團公司與各貨運站段之間數(shù)據(jù)傳輸則采用鐵路辦公網(wǎng)作為網(wǎng)絡(luò)載體,。 2.3 平臺數(shù)據(jù)存儲層由于鐵路貨運業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)都是格式化數(shù)據(jù),,均以關(guān)系型數(shù)據(jù)庫的方式進行存儲,主要數(shù)據(jù)庫產(chǎn)品為Oracle數(shù)據(jù)庫,。目前鐵路貨運業(yè)務(wù)也存在一些檢測類的輔助系統(tǒng),,其數(shù)據(jù)是以音頻或視頻等形式存儲的,這部分數(shù)據(jù)量較大,,且不適合存儲到數(shù)據(jù)庫中,,因此這部分數(shù)據(jù)需要采用分布式文件系統(tǒng)(HDFS)方式進行存儲。而對于互聯(lián)網(wǎng)獲取的數(shù)據(jù)需要通過專業(yè)軟件產(chǎn)品(如Sqoop等),,將數(shù)據(jù)轉(zhuǎn)化為文件方式進行存儲,。 2.4 平臺數(shù)據(jù)分析層由于大數(shù)據(jù)數(shù)據(jù)類型分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)2種類型,所以數(shù)據(jù)分析層分為結(jié)構(gòu)化數(shù)據(jù)分析與非結(jié)構(gòu)化數(shù)據(jù)分析,。 結(jié)構(gòu)化數(shù)據(jù)是經(jīng)過處理后并加載到關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),,而結(jié)構(gòu)化數(shù)據(jù)分析已經(jīng)是一種逐漸趨于成熟的技術(shù)[4]。在鐵路貨運業(yè)務(wù)中,,結(jié)構(gòu)化數(shù)據(jù)分析可以通過各生產(chǎn)系統(tǒng)建設(shè)的數(shù)據(jù)倉庫進行研究,。例如分析數(shù)據(jù)量龐大的電子運單數(shù)據(jù)時,可以采用數(shù)據(jù)倉庫的聯(lián)機分析處理(OLAP),,OLAP作為一種多維查詢和分析工具,,不但提高了查詢速度,使數(shù)據(jù)庫中大量數(shù)據(jù)得到有效地利用,,同時也降低了服務(wù)器的性能損耗,,如圖2所示。 圖2 OLAP架構(gòu) 非結(jié)構(gòu)化數(shù)據(jù)是音頻,、視頻和圖片等文件,,非結(jié)構(gòu)化數(shù)據(jù)是不滿足任何預(yù)定義模式的數(shù)據(jù),可以加載到NoSQL等非關(guān)系型數(shù)據(jù)庫中,。通過傳統(tǒng)的數(shù)據(jù)分析技術(shù)是不足以處理這類數(shù)據(jù)的,。非結(jié)構(gòu)化分析基于Hadoop、Spark等框架進行研究,。其中對于分布式數(shù)據(jù)處理的抽象層次不高時,,采用Hadoop分布式文件系統(tǒng)對數(shù)據(jù)存儲并處理;Hadoop分布式文件系統(tǒng)(HDFS)是Hadoop應(yīng)用中一個最主要的分布式存儲系統(tǒng),。一個HDFS集群主要由1個元數(shù)據(jù)管理節(jié)點(NameNode)和很多個數(shù)據(jù)節(jié)點(DataNode)組成:NameNode管理文件系統(tǒng)的元數(shù)據(jù),,而DataNode存儲了實際的數(shù)據(jù)。而對于需要使用機器學(xué)習(xí)及批處理等技術(shù)時,,則使用Spark框架,。主要采用的算法包括回歸分析、統(tǒng)計分析,、神經(jīng)網(wǎng)絡(luò),、支持向量機及深度學(xué)習(xí)等基礎(chǔ)算法,,如圖3所示。 圖3 Hadoop分布式文件系統(tǒng)(HDFS)架構(gòu) 2.5 平臺數(shù)據(jù)展示層目前在數(shù)據(jù)展示方面應(yīng)用較多的工具是潤乾報表,,通過潤乾報表可以根據(jù)自己的需求制定復(fù)雜的報表并進行數(shù)據(jù)分析,。可以通過引入ECharts等第三方圖庫進行特色展示,?;趆tml5 Canvas的ECharts是一個純Javascript圖表庫,兼容大部分瀏覽器,。ECharts可以提供更直觀,、更生動的數(shù)據(jù)可視化圖表,并且支持交互和個性化定制,,滿足個性化需求,。具有豐富的可視化類型,,通過散點圖,、折線圖、柱狀圖,、餅圖,、雷達圖、K線圖,、熱力圖,、漏斗圖和儀表圖的形式進行數(shù)據(jù)展示。此外ECharts提供了動態(tài)類型切換功能,,讓用戶可以根據(jù)需要切換相應(yīng)的圖表類型和堆疊狀態(tài),。同時也可以通過平臺本身的數(shù)據(jù)展示模塊進行數(shù)據(jù)動態(tài)的、實時的重繪操作,。 3 大數(shù)據(jù)平臺實施步驟大數(shù)據(jù)平臺的建設(shè)并不是一蹴而就的,,需要不斷地探索與修正。大數(shù)據(jù)平臺的實施步驟主要分為以下幾部分,。 3.1 業(yè)務(wù)分析并確定大數(shù)據(jù)平臺應(yīng)用主題業(yè)務(wù)分析主要包括對貨運業(yè)務(wù)流程和需求的分析,、確定數(shù)據(jù)源,通過對用戶需求的調(diào)研明確分析目標和思路,,確定要導(dǎo)入哪些數(shù)據(jù),、要得到哪些信息,從而確保數(shù)據(jù)分析有效進行,。貨物運輸是鐵路行業(yè)的核心支柱產(chǎn)業(yè),,在市場經(jīng)營領(lǐng)域圍繞貨運業(yè)務(wù),通過搜集貨票數(shù)據(jù),、貨運電子商務(wù)系統(tǒng)計劃數(shù)據(jù)及更多貨運系統(tǒng)的數(shù)據(jù),,可以進行貨運業(yè)務(wù)額盈虧分析,。通過對用戶行為的大數(shù)據(jù)分析可以進一步提高市場營銷能力。 3.2 數(shù)據(jù)規(guī)劃數(shù)據(jù)規(guī)劃包括通過對業(yè)務(wù)調(diào)研進行統(tǒng)一編碼并確認,,盤點已有數(shù)據(jù)資產(chǎn),,完善數(shù)據(jù)管理標準有效進行數(shù)據(jù)規(guī)范等,加快數(shù)據(jù)資源的整合共享[5],。 3.3 設(shè)計邏輯模型和物理模型通過對原始數(shù)據(jù)進行分析,,建立實體模型、建立數(shù)據(jù)庫邏輯模型等來完成邏輯模型的設(shè)計,。集團公司的大數(shù)據(jù)平臺仍然處于探索階段,,初期應(yīng)采取全開源架構(gòu),隨著研究的不斷深入再考慮更成熟的商業(yè)方案,。在完成邏輯模型的設(shè)計后將其轉(zhuǎn)換為物理模型,,并進行壓力測試與性能測試,提出優(yōu)化方案,。 3.4 系統(tǒng)推廣圍繞著已經(jīng)明確的項目意圖和商業(yè)目標讓大數(shù)據(jù)真正地應(yīng)用起來,,通過數(shù)據(jù)挖掘得到有商用價值的信息為鐵路貨運業(yè)務(wù)提供數(shù)據(jù)服務(wù)與決策支持。 4 結(jié)束語鐵路貨運大數(shù)據(jù)平臺的建設(shè)是一個不斷探索的過程,。不僅需要分析鐵路貨運業(yè)務(wù)需求,,形成鐵路貨運大數(shù)據(jù)的建設(shè)規(guī)劃,也需要借鑒其他領(lǐng)域的大數(shù)據(jù)項目,。經(jīng)歷不斷的驗證,、修正、實施,,來逐漸完成大數(shù)據(jù)平臺的建設(shè),。鐵路貨運大數(shù)據(jù)平臺將成為重要的資產(chǎn)數(shù)據(jù)、提供數(shù)據(jù)服務(wù),、通過預(yù)測分析能力支持哈爾濱局集團公司的各項決策,。構(gòu)建適合哈局貨運業(yè)務(wù)發(fā)展的大數(shù)據(jù)平臺,將提高挖掘貨運數(shù)據(jù)價值的能力,,成為貨運業(yè)務(wù)增收的重要手段,。鐵路貨運大數(shù)據(jù)方面的研究成果也可以逐步延伸到集團公司經(jīng)營、生產(chǎn),、安全等領(lǐng)域,,充分利用大數(shù)據(jù)技術(shù),發(fā)揮其在提高效率,、提高效益,、優(yōu)化服務(wù)、保障安全方面的作用,,是集團公司在新時期的必然選擇,。 |
|
來自: gaogaoyishi > 《我的圖書館》