久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

保險(xiǎn)業(yè)海量非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)選型、遷移,、備份等難點(diǎn)解讀

 yi321yi 2020-07-22
保險(xiǎn)企業(yè)對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)的挖掘需求日益強(qiáng)烈,,但在保險(xiǎn)科技初期,非結(jié)構(gòu)化數(shù)據(jù)數(shù)量并未形成規(guī)模,,加之保險(xiǎn)核心系統(tǒng),、影像系統(tǒng)、中間平臺(tái)等業(yè)務(wù)平面的發(fā)展限制,,保險(xiǎn)企業(yè)普遍采用 NAS 設(shè)備存儲(chǔ)各類非結(jié)構(gòu)化數(shù)據(jù),,但隨著保險(xiǎn)業(yè)務(wù)的迅猛發(fā)展,海量非結(jié)構(gòu)化數(shù)據(jù)已初具規(guī)模,, NAS 存儲(chǔ)的性能,、容量以及數(shù)據(jù)的可管理性會(huì)出現(xiàn)瓶頸。

社區(qū)日前組織活動(dòng),邀請(qǐng)了保險(xiǎn)行業(yè)專家,、對(duì)象存儲(chǔ)技術(shù)專家以及戴爾科技技術(shù)專家一起參與線上交流探討,。以下是探討中的精彩分享,希望能夠給大家?guī)硪恍﹨⒖妓悸?,以助大家更好的決策關(guān)于海量非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的選型問題,。內(nèi)容整理:Jerry 某保險(xiǎn)公司 信息技術(shù)高級(jí)主管

一、保險(xiǎn)業(yè)非結(jié)構(gòu)化數(shù)據(jù)現(xiàn)狀


1,、NAS 存儲(chǔ)擴(kuò)容問題

【問題詳述】我們現(xiàn)在用的 netapp 的 nas 存儲(chǔ),,總的空間是 40T ,空間已經(jīng)接近分配完,,但整個(gè)存儲(chǔ)空間使用才 50% (都是以 NFS 的形式分配給不同的業(yè)務(wù))?,F(xiàn)在再有新業(yè)務(wù)新需求了,沒有空間可以分配了,,這種問題咨詢了廠家,,說是收縮卷的空間可能不好操作。所以我們面臨著 NAS 擴(kuò)容的問題,。問題來了,,領(lǐng)導(dǎo)覺得我們的擴(kuò)容不能被 NETAPP 品牌綁架,問下各位專家,,有已購擴(kuò)容的方法或者案例嗎,?

@Jerry 某保險(xiǎn)公司 信息技術(shù)高級(jí)主管:

NAS 品牌擴(kuò)容能不能不被品牌綁架?幾乎不可能,,暫且不論能不能混用其他品牌擴(kuò)容柜,,就算能混用,敢不敢混用都是一個(gè)問題,,出了事誰承擔(dān),?傳統(tǒng) NAS 除了擴(kuò)容就是購買其他品牌的設(shè)備了,沒法在一個(gè)品牌的機(jī)頭上混用另一個(gè)品牌的擴(kuò)容柜,。收縮卷的操作都是高危敏感操作,,極容易出問題,不要輕易嘗試,。

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

傳統(tǒng)的 NAS 一定會(huì)面臨擴(kuò)充的難題,,特別是在現(xiàn)階段大家數(shù)據(jù)飛漲的階段。建議你對(duì)你的應(yīng)用進(jìn)行評(píng)估,,看是否選擇基于分布式的數(shù)據(jù)湖技術(shù),,從而一勞永逸。給你帶來的優(yōu)勢(shì)主要有:

1 ,、方便擴(kuò)充,,容量和性能線性擴(kuò)充,;

2 、方便擴(kuò)充節(jié)點(diǎn)( 60 秒),;

3 ,、以后不再需要數(shù)據(jù)遷移, 這一次遷移數(shù)據(jù)你可以選擇基于快照的方式遷移,,速度還可以,;

4 、其它的優(yōu)點(diǎn),,比如可以隨時(shí)調(diào)節(jié)容錯(cuò)級(jí)別,新協(xié)議支持等等,。


2,、能否具體談?wù)?NAS 存儲(chǔ)的瓶頸?

【問題詳述】對(duì)于影像,、保單等產(chǎn)生大量非結(jié)構(gòu)化數(shù)據(jù)的業(yè)務(wù)系統(tǒng)來說,,有沒有經(jīng)驗(yàn)或者數(shù)據(jù)可以參考, NAS 文件數(shù)量或存儲(chǔ)容量在怎樣的數(shù)量級(jí),, NAS 存儲(chǔ)可能會(huì)出現(xiàn)明顯的瓶頸,?

@Jerry 某保險(xiǎn)公司 信息技術(shù)高級(jí)主管:

1 ,性能瓶頸,, NAS 機(jī)頭的瓶頸始終有限,,擴(kuò)容柜能持續(xù)擴(kuò)容, NAS 機(jī)頭不行,。

2 ,, NAS 底層文件系統(tǒng)的限制,最常見的就是單目錄下文件數(shù)量超過限制了,,同時(shí)文件數(shù)量增大到一定量級(jí),,讀寫效率明顯降低。 

3 ,,備份問題,,也是受限于機(jī)頭和備份方式,再就是 NAS 文件系統(tǒng)的訪問機(jī)制,,整體效率特別低,。

對(duì)于傳統(tǒng) NAS 存儲(chǔ),,主要看底層文件系統(tǒng)的單目錄下最大文件數(shù)限制,尤其是影像、打印這類系統(tǒng),,一旦共享目錄下文件數(shù)接近或者超過最大文件數(shù)限制,訪問效率明顯下降,。其次,,非結(jié)構(gòu)化數(shù)據(jù)的規(guī)模和體積會(huì)對(duì) NAS 性能有明顯影響,同是同一文件數(shù)量規(guī)模的影像件類和打印報(bào)文結(jié)果類非結(jié)構(gòu)化數(shù)據(jù),打印報(bào)文結(jié)果訪問效率更低,。

@白光茁 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

一般情況下,,我這邊的經(jīng)驗(yàn)是百萬量級(jí)的文件。但是具體還是要看企業(yè)內(nèi)部對(duì)未來 IT 技術(shù)路線的看法和企業(yè)的實(shí)際情況,。從目前市面上成熟的存儲(chǔ)技術(shù)來看,,在海量非結(jié)構(gòu)化數(shù)據(jù)的長久保存這個(gè)場(chǎng)景,基本上就是對(duì)象存儲(chǔ)這個(gè)選擇,,因?yàn)椴还芪募菐兹f量級(jí),,還是幾十億量級(jí),都能夠很好的處理,。在實(shí)際項(xiàng)目中,,有的企業(yè)會(huì)優(yōu)先選擇解決當(dāng)下碰到的問題,有的企業(yè)會(huì)考慮未來幾年的架構(gòu)的合理性,,不同企業(yè)在進(jìn)行技術(shù)選型的時(shí)候考量點(diǎn)不太一樣,,這個(gè)會(huì)導(dǎo)致技術(shù)路線的選擇也不一樣。用對(duì)象存儲(chǔ)畢竟要涉及到應(yīng)用訪問接口的改造,,有的企業(yè)在接口改造上困難很大,,導(dǎo)致不得已繼續(xù)使用 NAS 。我自己就碰到過有的企業(yè)的軟件開發(fā)商破產(chǎn),,導(dǎo)致無法升級(jí)改造的事情,。

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

NAS ,或者說傳統(tǒng) NAS 有很多局限,,這也是分布式系統(tǒng)在創(chuàng)建之時(shí)就有的追求,,目的在于解決傳統(tǒng) NAS 的這些問題:

1 、性能依賴控制器,,控制器會(huì)造成性能瓶頸,,不能做大規(guī)模的并發(fā)負(fù)載分擔(dān);

2 ,、傳統(tǒng)的容錯(cuò)方式會(huì)導(dǎo)致更低的使用效率以及極不靈活的容錯(cuò)方式,,而且系統(tǒng)故障重建時(shí)間極難控制;

3 ,、多協(xié)議支持是硬傷,,數(shù)據(jù)湖的訪問方式才是符合大數(shù)據(jù)模式的,太多的數(shù)據(jù)遷移和復(fù)制會(huì)由于數(shù)據(jù)的規(guī)模越來越大變得不可操作,。

3,、非結(jié)構(gòu)化數(shù)據(jù)備份策略及備份存儲(chǔ)?

【問題詳述】非結(jié)構(gòu)化數(shù)據(jù)具有文件多且容量大的特點(diǎn),,無論是NAS還是對(duì)象存儲(chǔ),,在數(shù)據(jù)備份策略和備份存儲(chǔ)方面有沒有合適的方案和經(jīng)驗(yàn)可以參考,?

@白光茁 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

主流的對(duì)象存儲(chǔ)都是能夠提供免備份功能的。一般對(duì)象存儲(chǔ)都是分布式的架構(gòu),,物理部件的故障不會(huì)影響的系統(tǒng)的運(yùn)行,,也可以通過跨站點(diǎn)復(fù)制實(shí)現(xiàn)站點(diǎn)級(jí)容災(zāi)。在邏輯保護(hù)方面,,通過多版本功能可以實(shí)現(xiàn)誤修改,、誤刪除數(shù)據(jù)的恢復(fù),也可以通過 WORM 功能來保證數(shù)據(jù)不會(huì)被惡意刪除,。

@cpc1989 某保險(xiǎn)公司 存儲(chǔ)工程師:

從個(gè)人運(yùn)維經(jīng)驗(yàn)來看,,拋開存儲(chǔ)系統(tǒng)本身存在的不可控因素,數(shù)據(jù)丟失也往往會(huì)發(fā)生在日常運(yùn)維事件中,,對(duì)象存儲(chǔ)也不例外,,免備份并沒想象中可靠,可能并不適合于重要數(shù)據(jù)場(chǎng)景,。

@白光茁 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

同意樓上,但是在做方案的時(shí)候,,畢竟還是要考慮成本,、運(yùn)維等很多層面,對(duì)象存儲(chǔ)主要面臨的場(chǎng)景還是海量非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),。備份的基本邏輯就是把數(shù)據(jù)保留多份,,所以我們面臨的問題就是使用什么系統(tǒng)把海量的非結(jié)構(gòu)化數(shù)據(jù)再保存一份甚至多份,而且還要考慮隨著系統(tǒng)的增多,,對(duì)運(yùn)維管理和構(gòu)建成本帶來的提升,,以及更多的故障點(diǎn)。當(dāng)然如果數(shù)據(jù)量小的情況下,,這些問題其實(shí)就不是很嚴(yán)重,。

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

非結(jié)構(gòu)化數(shù)據(jù)同結(jié)構(gòu)化數(shù)據(jù)一樣,可按照不同的需求,,實(shí)現(xiàn)多種方式的備份,。而唯一不一樣的,只有大數(shù)據(jù),,或者說海量的非結(jié)構(gòu)化數(shù)據(jù),,由于數(shù)據(jù)量的巨大,不能用傳統(tǒng)的備份方式來處理,,這時(shí)候我們會(huì)建議采用歷史數(shù)據(jù)歸檔替代傳統(tǒng)的備份,,一方面保證數(shù)據(jù)保護(hù)的時(shí)間窗,同時(shí)確保數(shù)據(jù)的回溯訪問時(shí)間,。

4,、保險(xiǎn)影像系統(tǒng)中存儲(chǔ)的大量非結(jié)構(gòu)化數(shù)據(jù)有無快速有效的備份方案,?

【問題詳述】對(duì)于保險(xiǎn)影像系統(tǒng)中存儲(chǔ)的大量非結(jié)構(gòu)化數(shù)據(jù)有無快速有效的備份方案,可以應(yīng)對(duì)在線數(shù)據(jù)誤刪除,、惡意刪除,、中病毒被篡改等問題?

@Jerry 某保險(xiǎn)公司 信息技術(shù)高級(jí)主管:

對(duì)于影像 / 單證 / 打印類數(shù)據(jù)的快速備份問題,,現(xiàn)在沒有一勞永逸的解決方案,,這也是全行業(yè)面臨的數(shù)據(jù)保護(hù)難題。在此分享點(diǎn)經(jīng)驗(yàn)僅供參考:

傳統(tǒng) NAS 存儲(chǔ)備份,,傳統(tǒng)備份效率受制于兩個(gè)方面,,一個(gè)是文件讀取 IO 的時(shí)間,由于數(shù)據(jù)量大,,時(shí)間被橫向拉長,。對(duì)于這點(diǎn)的優(yōu)化,可以考慮增加 NAS 文件的備份節(jié)點(diǎn),,每個(gè)節(jié)點(diǎn)掃描特定范圍的共享目錄,,同時(shí)并行掃描將節(jié)省大量時(shí)間,但備份節(jié)點(diǎn)和掃描線程數(shù)并不是越多越好,,根據(jù)實(shí)際測(cè)試結(jié)果調(diào)整,;二個(gè)是受制于 NAS 機(jī)頭性能,硬件素質(zhì)決定無法優(yōu)化,。如果是分布式 NAS ,,速度會(huì)更有優(yōu)勢(shì)。傳統(tǒng)單雙機(jī)頭 NAS 則沒有很好的辦法,。

對(duì)象存儲(chǔ)備份和恢復(fù)則很依賴對(duì)象存儲(chǔ)的接口和協(xié)議,,業(yè)務(wù)條件允許的話,建議做好冷熱分離和數(shù)據(jù)的歸檔,。

@dawey 某大型券商 技術(shù)經(jīng)理:

在海量文件環(huán)境下,,傳統(tǒng)的數(shù)據(jù)備份方案無法有效備份,對(duì)象存儲(chǔ)采用多副本的方式進(jìn)行邏輯故障防護(hù),。與傳統(tǒng)文件存儲(chǔ)相比,,對(duì)象存儲(chǔ)在海量非結(jié)構(gòu)化數(shù)據(jù)長久保存場(chǎng)景下有著獨(dú)特的優(yōu)勢(shì)。

@白光茁 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

如果底層的存儲(chǔ)技術(shù)是對(duì)象存儲(chǔ)的話,,可以通過多版本的方式來實(shí)現(xiàn)數(shù)據(jù)防誤刪除,,或者也可以通過 WORM 的功能來防止誤刪除和惡意刪除。在病毒預(yù)防方面,,對(duì)象存儲(chǔ)在存儲(chǔ)文件的時(shí)候是打散到不同物理節(jié)點(diǎn)來存放的,,所以病毒文件無法感染同一存儲(chǔ)內(nèi)的其他文件,因此也可以有效的進(jìn)行防病毒,。

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

備份,,換句話說,,數(shù)據(jù)的安全以及歷史數(shù)據(jù)的可訪問,不管是不是海量,,都需要考慮,。由于數(shù)據(jù)的海量,會(huì)讓一些傳統(tǒng)的方式無法完成,,而需要做出調(diào)整,。一般說來,我們建議采用歷史數(shù)據(jù)歸檔方式實(shí)現(xiàn)數(shù)據(jù)備份,,傳統(tǒng)的備份,,會(huì)涉及到數(shù)據(jù)的封裝,對(duì)于海量的數(shù)據(jù)會(huì)有性能和數(shù)據(jù)可訪問性方面的難題,,只會(huì)用在滿足特定需求的數(shù)據(jù)保護(hù)上,。而采用包括快照、多副本,、同步容錯(cuò),、 NDMP 備份多種方式方式來滿足不同的 RPO/RTO 要求。

5,、租賃云對(duì)象存儲(chǔ)用于存儲(chǔ)影像文件,,是否需要本地備份? 

【問題詳述】被問到一個(gè)問題,,如果選擇租賃公有云的對(duì)象存儲(chǔ),用于存儲(chǔ)影像文件,,是否需要本地備份,?當(dāng)時(shí)是忽悠過去了,想聽聽各位大拿的意見和建議,。

@dawey 某大型券商 技術(shù)經(jīng)理:

曾有某創(chuàng)業(yè)公司怒懟某云,,稱其放在該云服務(wù)器上的數(shù)據(jù)全部丟失,給其公司業(yè)務(wù)帶來災(zāi)難性損失,。由此可見,,一定需要進(jìn)行本地備份,數(shù)據(jù)備份是最后手段,,設(shè)備壞了可以換,,數(shù)據(jù)丟了對(duì)公司來說是災(zāi)難性的。

@白光茁 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

從數(shù)據(jù)安全的角度,,建議還是本地有一份備份,,更為安全妥當(dāng)。另外從保證業(yè)務(wù)連續(xù)性的角度,,建議應(yīng)用也在本地有部署,。

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

取決于你的數(shù)據(jù)重要性,,如果這個(gè)數(shù)據(jù)不能丟,不管你的租賃方給你講他們有多可靠,,你也需要有本地備份,。同時(shí),還需要考慮數(shù)據(jù)恢復(fù)的效率問題以及數(shù)據(jù)取回的成本問題,。

二,、非結(jié)構(gòu)化數(shù)據(jù)方案選擇

1、對(duì)象存儲(chǔ)或 MPP 相對(duì)于 NAS ,,其成本與收益是否平衡,?

【問題詳述】非結(jié)構(gòu)化數(shù)據(jù)遷移至對(duì)象存儲(chǔ)或 MPP 系統(tǒng)后,此類數(shù)據(jù)的備份,、恢復(fù)以及持久化保留相對(duì)于在傳統(tǒng)存儲(chǔ)上是否明顯改善,?主要收益如何?

@白光茁 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

對(duì)象存儲(chǔ)主要面向的是海量非結(jié)構(gòu)化數(shù)據(jù)的管理,,由于數(shù)量量大,,導(dǎo)致的備份、恢復(fù)問題以及長久保存導(dǎo)致的數(shù)據(jù)安全性問題,,對(duì)象存儲(chǔ)都能夠解決,。相對(duì)于傳統(tǒng)存儲(chǔ)而言,數(shù)據(jù)量越大,,對(duì)象存儲(chǔ)的優(yōu)勢(shì)體現(xiàn)的越明顯,。從某些層面講,對(duì)對(duì)象存儲(chǔ)而言,,管理 1PB 的數(shù)據(jù),,需要 1 個(gè)人就夠了,當(dāng)數(shù)據(jù)量增長到了 100PB ,, 1 個(gè)人也能夠管理,。

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

這是一個(gè)比較寬泛的問題,具體情況還是需要具體分析,。傳統(tǒng) NAS 存在的局限主要包括:不支持更多的協(xié)議,、容錯(cuò)不靈活、擴(kuò)展不方便,、元數(shù)據(jù)無優(yōu)化等等,,而這些是分布式解決方案的優(yōu)勢(shì),再加上不需要數(shù)據(jù)復(fù)制而支持就地分析的優(yōu)勢(shì),,很多時(shí)候分布式是唯一的解決方案,。而傳統(tǒng) NAS 的單流性能的優(yōu)勢(shì),對(duì)于分布式或并行解決方案,,需要采用閃存來提速,,目前還會(huì)帶來一定的成本上的提升,。

2、對(duì)象存儲(chǔ),,自建還是租用云上的更合適,?

【問題詳述】保險(xiǎn)公司對(duì)于非結(jié)構(gòu)化數(shù)據(jù),考慮采用分布式對(duì)象存儲(chǔ),,可以考慮本地自建,,或者租用云上的(例如阿里云的)對(duì)象存儲(chǔ),請(qǐng)問從成本和安全性,、性能等方面考慮,,如何做出比較科學(xué)的選擇呢?

@dawey 某大型券商 技術(shù)經(jīng)理:

金融行業(yè)一般考慮的順序是安全性(監(jiān)管要求),、性能,、成本。如果存儲(chǔ)的文件涉及敏感信息的,,租用公有云肯定是不合規(guī)的,。

對(duì)于性能,自建和租用都不是問題,,要求性能越高,,投入也就越大,這是成正比的,。成本沒有對(duì)比過,。

@Jerry 某保險(xiǎn)公司 信息技術(shù)高級(jí)主管:

云的話,初始成本低,,可以按需購買,,但無法符合金融行業(yè)的合規(guī)性要求,其次是上云容易下云難,。

自建的話,,初始成本高,,且需要運(yùn)維能力,,輕松應(yīng)對(duì)監(jiān)管要求,能夠?qū)崿F(xiàn)一定的自主控制,。各有利弊,,看公司運(yùn)營要求決定。從長久使用來看,,自建和云綜合成本不會(huì)有天差地別,。

@crasy xbo 網(wǎng)絡(luò)工程師:

拋開金融行業(yè)的合規(guī)性要求。保險(xiǎn)且經(jīng)濟(jì)的做法是:

1 ,、本地自建 公有云,,都使用,。

2 、使用主要以公有云為主,,自建以備份為主,,可不用太過考慮性能,公有云異常,,能撐起業(yè)務(wù)即可,。

3 、不管云還是自建,,都建議自己搭建對(duì)象存儲(chǔ)集群,,可控性上的保障會(huì)比用公有云的產(chǎn)品強(qiáng)太多。也能有效減少后期的數(shù)據(jù)遷移成本,。

3,、對(duì)象存儲(chǔ)產(chǎn)品的選型?

【問題詳述】在對(duì)象存儲(chǔ)方面,,閉源商用產(chǎn)品相比于以 ceph 為代表的開源商業(yè)產(chǎn)品之間,,在市場(chǎng)份額,用戶,,方案成熟度,,性能,擴(kuò)展性以及其他功能等方面是否有對(duì)比數(shù)據(jù)可以參考,?

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

不管是對(duì)象存儲(chǔ),,還是其它存儲(chǔ),選型的基礎(chǔ)條件是:“選擇適合自己的產(chǎn)品,!' 而判斷什么樣的產(chǎn)品才是適合自己的呢,,很重要的一點(diǎn),是看“生態(tài)”,,一方面是有前景的技術(shù),,另一方面是領(lǐng)先的技術(shù),其三是有足夠的人 / 廠商相互認(rèn)證支持,。Ceph 作為一個(gè)被廣泛使用 / 抄襲的系統(tǒng),,提供了塊 / 文件 / 對(duì)象的所有支持,是它的優(yōu)勢(shì)也是它的劣勢(shì),。優(yōu)勢(shì)在于要什么都有,,劣勢(shì)就是:“萬金油,什么病都治,,什么病都治不好”,,比如在元數(shù)據(jù)優(yōu)化、就地多協(xié)議訪問等方面都存在問題。另一方面,,還有一幫人,,天天等開源社區(qū)解決他們的 Bug 。這也是很多金融業(yè)的用戶選擇成熟商業(yè)產(chǎn)品的原因,。


4,、不同的保險(xiǎn)公司數(shù)據(jù)量的差異比較大,如何能夠選取正確非結(jié)構(gòu)化解決方案的方法,?

【問題詳述】在當(dāng)前保險(xiǎn)行業(yè),,針對(duì)不同的保險(xiǎn)公司數(shù)據(jù)量的差異比較大。如何能夠選取正確非結(jié)構(gòu)化解決方案的方法,?具體過程的分析和思考路徑,,已經(jīng)遇到的坑有哪些,并且給出一些實(shí)際案例進(jìn)行佐證,。

@Jerry 某保險(xiǎn)公司 信息技術(shù)高級(jí)主管:

不同的保險(xiǎn)公司數(shù)據(jù)量的差異較大,,是一個(gè)客觀事實(shí),即使是一家保險(xiǎn)公司不同業(yè)務(wù)條線的數(shù)據(jù)也會(huì)存在不小區(qū)別,。對(duì)于非結(jié)構(gòu)化解決方案的選擇,,個(gè)人認(rèn)為還是要根據(jù)企業(yè)自身情況出發(fā),因地制宜,,并沒有一種萬能的方案能夠徹底非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)問題,。

各保險(xiǎn)公司非結(jié)構(gòu)化數(shù)據(jù)常見的一個(gè)情況是, DC 剛籌建那會(huì)兒體量不大,,單證類非結(jié)構(gòu)化數(shù)據(jù)一般簡(jiǎn)單的采用傳統(tǒng) NAS 來存儲(chǔ),,隨著業(yè)務(wù)的發(fā)展,受制于 NAS 機(jī)頭的性能限制,,各業(yè)務(wù)系統(tǒng)對(duì)單證的存,、取、備均不同程度出現(xiàn)效率低下的問題,,系統(tǒng)出現(xiàn)瓶頸,。

對(duì)于傳統(tǒng) NAS 向?qū)ο蟠鎯?chǔ)的切換,無非是一個(gè)長痛短痛的問題,,但有一點(diǎn)是確定的,,一切不結(jié)合業(yè)務(wù)的技術(shù)更新都是耍流氓。眾所周知保險(xiǎn)核心系統(tǒng)提供商就那么幾家,,各應(yīng)用接口,、核心版本幾乎都是基于各司業(yè)務(wù)的定制,,想一刀切不現(xiàn)實(shí),。因此,個(gè)人建議從傳統(tǒng) NAS 向?qū)ο蟠鎯?chǔ)切換過程中加入一個(gè)過渡方案,可以是分布式 NAS ,,可以是存儲(chǔ)資源池,,亦或是其他方案,重點(diǎn)是平滑過渡,,給業(yè)務(wù)一個(gè)緩沖時(shí)間,,解決傳統(tǒng) NAS 的性能效率問題的同時(shí)嘗試對(duì)象存儲(chǔ)的建設(shè),兩手抓,。

@白光茁 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

總體而言,,建設(shè)思路需要根據(jù)業(yè)務(wù)發(fā)展的需求、企業(yè)內(nèi)部的人員知識(shí)儲(chǔ)備,、架構(gòu)發(fā)展方向等綜合來看,。目前我看到比較多的企業(yè)采用的做法是資源池化,在基礎(chǔ)架構(gòu)層面盡量通過池化,、標(biāo)準(zhǔn)化來構(gòu)建存儲(chǔ)資源池,,來降低運(yùn)維的難度和復(fù)雜度。

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

其實(shí),,就算是同一公司,,非結(jié)構(gòu)化數(shù)據(jù)也是十分復(fù)雜的,有效的數(shù)據(jù)存儲(chǔ),、治理,、共享、訪問都需要在統(tǒng)一的架構(gòu)下解決,,這也是數(shù)據(jù)湖方案的重要作用,,通過與后端存儲(chǔ)架構(gòu)與前端存儲(chǔ)訪問的解耦,數(shù)據(jù)湖平臺(tái)對(duì)用戶屏蔽了數(shù)據(jù)的復(fù)雜性,。數(shù)據(jù)量本身也是建設(shè)中的難點(diǎn),,但數(shù)據(jù)湖方案通過前后一致的擴(kuò)展方式,以及不停機(jī)的容量,、功能擴(kuò)展,,確保能夠?qū)崿F(xiàn)“按需購買,即擴(kuò)即用”,,讓系統(tǒng)建設(shè)“只顧目前的需求”就好了,!

5、統(tǒng)一存儲(chǔ)方案和分散存儲(chǔ)方案處理非結(jié)構(gòu)數(shù)據(jù)有什么差異,?

【問題詳述】保險(xiǎn)公司的系統(tǒng)很多都是采用堆疊式建設(shè)的,,不同年份,不同用途,。存儲(chǔ)資源也是比較分散,。有些在本機(jī),,有些使用存儲(chǔ),有些用云,。有些在后備中心,,有些在 IDC 機(jī)房,有些在自己公司機(jī)房,,給運(yùn)維帶來較多的工作量,。

發(fā)展統(tǒng)一存儲(chǔ)方案,我們也提出過,,發(fā)現(xiàn)細(xì)化到各個(gè)系統(tǒng)時(shí),,就會(huì)與系統(tǒng)架構(gòu)產(chǎn)生衝突。需要開發(fā)商做很多修改,。有些費(fèi)用還不少,,有些會(huì)影響業(yè)務(wù)。綜合權(quán)衡后,,還是舊系統(tǒng)維持舊架構(gòu),,新系統(tǒng)用新的統(tǒng)一存儲(chǔ)。

非結(jié)構(gòu)數(shù)據(jù)對(duì)存儲(chǔ)的挑戰(zhàn)是空間需求越來越快,,保密要求越來越高,,在這種環(huán)境下??煞穹窒硪粋€(gè)用統(tǒng)一存儲(chǔ)方案還是分散存儲(chǔ)方案來來處理非結(jié)構(gòu)化數(shù)據(jù)的差異,,特別是風(fēng)險(xiǎn)角度,對(duì)存儲(chǔ)安全架構(gòu)上,,要做什么特別配置,。

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

你現(xiàn)在面臨的問題實(shí)際上就是數(shù)據(jù)湖架構(gòu)著力解決的問題。

各個(gè)系統(tǒng)的存儲(chǔ)之間互相隔離「孤島」,,數(shù)據(jù)湖讓已有系統(tǒng)在不安裝任何驅(qū)動(dòng) / 代理的前提下采用標(biāo)準(zhǔn)的訪問協(xié)議將數(shù)據(jù)放置到數(shù)據(jù)湖中,。

當(dāng)數(shù)據(jù)放入到數(shù)據(jù)湖以后,一方面能夠被傳統(tǒng)的系統(tǒng)共享,,另一方面也可以供新形態(tài)的應(yīng)用使用,。包括如深度學(xué)習(xí)這類的應(yīng)用。

數(shù)據(jù)湖支持幾乎所有主流的訪問協(xié)議,。其核心就是實(shí)現(xiàn)數(shù)據(jù)同專有系統(tǒng)之間的解耦,。

補(bǔ)充一下:對(duì)于統(tǒng)一架構(gòu),我的理解就是指 Unified ,,這種架構(gòu)實(shí)際上就是傳統(tǒng)的 NAS ,,當(dāng)初是為了滿足大家在同一設(shè)備中實(shí)現(xiàn) Block/File 而誕生的,只能提供相對(duì)簡(jiǎn)單的文件支持能力,,無法滿足數(shù)據(jù)湖架構(gòu)對(duì)眾多的協(xié)議需求,。而對(duì)于數(shù)據(jù)安全上面,,統(tǒng)一存儲(chǔ)一般是基于傳統(tǒng) RAID 的,這種方式在數(shù)據(jù)越來越大,,磁盤也越來越大的現(xiàn)在,越來越有問題,,大量新的技術(shù)希望能解決這種問題,。

數(shù)據(jù)湖支持預(yù)置策略,支持安全策略隨時(shí)調(diào)整,。另一方面,,對(duì)于數(shù)據(jù)權(quán)限、數(shù)據(jù)共享這類的安全,,商業(yè)產(chǎn)品都能夠做到企業(yè)級(jí),,不用太擔(dān)心。

@白光茁 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

這個(gè)要看公司對(duì)云,、自建機(jī)房,、容災(zāi)中心、 IDC 機(jī)房的定位和將來的發(fā)展,。其次就是對(duì)應(yīng)用架構(gòu)的梳理,。假設(shè)在現(xiàn)有應(yīng)用架構(gòu)、數(shù)據(jù)中心架構(gòu)保持不變的情況下,,可以考慮用數(shù)據(jù)湖解決方案,,既能在底層通過資源池化來簡(jiǎn)化運(yùn)維提升利用率,又可以通過不同的協(xié)議接口對(duì)接新舊應(yīng)用的需求,。

6,、對(duì)象存儲(chǔ)的應(yīng)用場(chǎng)景和行業(yè)內(nèi)的應(yīng)用標(biāo)準(zhǔn)?

【問題詳述】問題 1 :在滿足什么樣的條件下選擇使用對(duì)象存儲(chǔ)比較合適,?比如說影像文件數(shù)量或者說總的存儲(chǔ)量,?

問題 2 :對(duì)象存儲(chǔ)與分布式文件系統(tǒng)的應(yīng)用場(chǎng)景,也有廠商向我們推薦使用分布式文件系統(tǒng)來做影像存儲(chǔ),?

問題 3 :如果選擇對(duì)象存儲(chǔ),,有哪些關(guān)鍵的技術(shù)指標(biāo)需要關(guān)注?

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

問題 1 :對(duì)象存儲(chǔ)的優(yōu)勢(shì)主要包括:Key 的方式使支持海量的數(shù)據(jù)處理,,容易擴(kuò)展,,天生支持多數(shù)據(jù)中心,短鏈接方式適合第三平臺(tái)應(yīng)用,、多協(xié)議訪問等等,。如果你的需求中有以上的一條或幾條,就需要評(píng)估是否需要對(duì)象存儲(chǔ)了,。影像系統(tǒng)是保險(xiǎn)業(yè)傳統(tǒng)的 NAS 解決方案的戰(zhàn)場(chǎng),,但近年來,,大家都在遷移到對(duì)象平臺(tái),主要的原因是文件系統(tǒng)太大,,跑不動(dòng)了,。一般來說,當(dāng)一個(gè)目錄下的文件數(shù)超過百萬級(jí)別,,從最佳做法的角度,,可能就滿足遷移的一個(gè)前提了。

問題 2 :看你的主要應(yīng)用,。一般來說,,對(duì)象存儲(chǔ)主要使用對(duì)象協(xié)議,其它協(xié)議作為補(bǔ)充,。分布式文件系統(tǒng)主要使用文件協(xié)議,,同時(shí)支持其它協(xié)議,支持的對(duì)象協(xié)議一般是對(duì)象協(xié)議的子集,。其二,,你需要看應(yīng)用,已有應(yīng)用如果不改,,一般來講是支持文件的,,這時(shí)候也可以選分布式文件系統(tǒng)存儲(chǔ)影像,這也是主流解決方案,。

問題 3 :對(duì)象存儲(chǔ)的產(chǎn)品選型,,建議關(guān)注指標(biāo)為:安全性、產(chǎn)品生態(tài)(可參見我另外一個(gè)關(guān)于選型的回復(fù)),,兼容性,、獨(dú)到技術(shù)能力、擴(kuò)展能力,。

@白光茁 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

關(guān)于第一個(gè)問題,,我這邊一般的判斷標(biāo)準(zhǔn)是百萬文件數(shù)量,就可以考慮使用對(duì)象存儲(chǔ),。關(guān)于第二個(gè)問題,,主要依據(jù)咱們的技術(shù)路線選擇,在存儲(chǔ)影像這個(gè)場(chǎng)景下,,兩者都可以使用,。有些客戶在整個(gè)系統(tǒng)架構(gòu)上就在往多中心、多活架構(gòu)上去走,,所以他們最終選擇了對(duì)象存儲(chǔ)的技術(shù)路線,。關(guān)于第三個(gè)問題,主要的技術(shù)指標(biāo)主要關(guān)注擴(kuò)展性,,例如單一 Bucket 支持的對(duì)象數(shù)量,,多活,、基本性能。我這邊接觸的項(xiàng)目,,從最終的使用上來看,,一般是容量先用滿。


7,、對(duì)象存儲(chǔ)的數(shù)據(jù)備份與恢復(fù)實(shí)現(xiàn)的方式都有哪些,?

@dawey 某大型券商 技術(shù)經(jīng)理:

主流對(duì)象存儲(chǔ)均采用節(jié)點(diǎn)式橫向擴(kuò)展分布式架構(gòu),以實(shí)現(xiàn)從小規(guī)模到大規(guī)模( 10 PB 級(jí))的容量和性能擴(kuò)展,。為了實(shí)現(xiàn)海量非結(jié)構(gòu)化數(shù)據(jù)管理,,主流對(duì)象存儲(chǔ)均采用分布式元數(shù)據(jù)管理方式,,以使得存儲(chǔ)系統(tǒng)在管理海量(億級(jí))文件時(shí),,能夠?qū)崿F(xiàn)訪問性能的穩(wěn)定性。

對(duì)象存儲(chǔ)拋棄了傳統(tǒng)的基于樹狀文件系統(tǒng)的管理方式,,通過 Key-Value 的扁平式架構(gòu)來管理海量文件,,保障了海量文件下文件讀寫的性能。為了保證在分布式系統(tǒng)架構(gòu)下的數(shù)據(jù)安全性,,對(duì)象存儲(chǔ)通常采用糾刪碼或者多份副本的方式預(yù)防磁盤,、節(jié)點(diǎn)級(jí)的硬件故障,同時(shí)通過多站點(diǎn)復(fù)制,,保證站點(diǎn)級(jí)故障下數(shù)據(jù)的可用性,。

此外在海量文件環(huán)境下,傳統(tǒng)的數(shù)據(jù)備份方案無法有效備份,,對(duì)象存儲(chǔ)采用多副本的方式進(jìn)行邏輯故障防護(hù),。與傳統(tǒng)文件存儲(chǔ)相比,對(duì)象存儲(chǔ)在海量非結(jié)構(gòu)化數(shù)據(jù)長久保存場(chǎng)景下有著獨(dú)特的優(yōu)勢(shì),。


三,、非結(jié)構(gòu)化數(shù)據(jù)遷移的相關(guān)問題

1、非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)遷移后如何解決數(shù)據(jù)訪問問題,?

【問題詳述】若將非結(jié)構(gòu)化數(shù)據(jù)由傳統(tǒng)存儲(chǔ)遷移至對(duì)象存儲(chǔ)或 MPP 系統(tǒng),,數(shù)據(jù)的層次結(jié)構(gòu)、目錄層級(jí)以及數(shù)據(jù)訪問方式均可能發(fā)生變化,,業(yè)務(wù)系統(tǒng)對(duì)遷移后數(shù)據(jù)的訪問存在巨大隱患,。在規(guī)劃時(shí)如何針對(duì)性解決此類問題?

@dawey 某大型券商 技術(shù)經(jīng)理:

對(duì)象存儲(chǔ)拋棄了傳統(tǒng)的基于樹狀文件系統(tǒng)的管理方式,,通過 Key-Value 的扁平式架構(gòu)來管理海量文件,,保障了海量文件下文件讀寫的性能。為了保證在分布式系統(tǒng)架構(gòu)下的數(shù)據(jù)安全性,,對(duì)象存儲(chǔ)通常采用糾刪碼或者多份副本的方式預(yù)防磁盤,、節(jié)點(diǎn)級(jí)的硬件故障,,同時(shí)通過多站點(diǎn)復(fù)制,保證站點(diǎn)級(jí)故障下數(shù)據(jù)的可用性,。對(duì)象存儲(chǔ)通過 API 接口進(jìn)行數(shù)據(jù)訪問,,應(yīng)用或者客戶端可以直接調(diào)用訪問數(shù)據(jù),更加便捷,,支持 S3 ,、 HDFS 、 Swift 等多種協(xié)議,。

對(duì)象存儲(chǔ)經(jīng)常被比作在一家高級(jí)餐廳代客停車,。當(dāng)一個(gè)顧客需要代客停車時(shí),他就把鑰匙交給別人,,換來一張收據(jù),。這個(gè)顧客不用知道他的車被停在哪,也不用知道在他用餐時(shí)服務(wù)員會(huì)把他的車移動(dòng)多少次,。在這個(gè)比喻中,,一個(gè)存儲(chǔ)對(duì)象的唯一標(biāo)識(shí)符就代表顧客的收據(jù)。當(dāng)需要獲取數(shù)據(jù)時(shí),,只需要告訴對(duì)象存儲(chǔ)這個(gè)唯一標(biāo)識(shí)符,,剩下的檢索工作均由對(duì)象存儲(chǔ)本身完成。

由于訪問方式上不同,,涉及存儲(chǔ)變更后應(yīng)用系統(tǒng)也需要進(jìn)行訪問方式上的改造,,需要有一定的過渡期,同時(shí)也要考慮老數(shù)據(jù)的遷移問題,。

@白光茁 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

在數(shù)據(jù)遷移的過程中,,雖然數(shù)據(jù)的訪問方式、數(shù)據(jù)的層次結(jié)構(gòu)以及目錄層級(jí)等會(huì)發(fā)生變化,,但是整個(gè)過程都是可控的,。在實(shí)際操作中,比較常見的有兩種方案,,一種方案是通過應(yīng)用進(jìn)行數(shù)據(jù)遷移,,這種也是最推薦的方案,應(yīng)用進(jìn)行遷移的時(shí)候,,可以根據(jù)業(yè)務(wù)的負(fù)載靈活的控制遷移速度,,也可以在遷移過程中完成對(duì)每個(gè)對(duì)象數(shù)據(jù)的校驗(yàn)。第二種方案是由遷移工具進(jìn)行數(shù)據(jù)遷移,,這種情況下需要應(yīng)用進(jìn)行相應(yīng)的配合,,首先應(yīng)用需要能夠同時(shí)訪問源存儲(chǔ)和目標(biāo)存儲(chǔ),并將新增數(shù)據(jù)寫入到新的目標(biāo)存儲(chǔ)中,這樣保證源存儲(chǔ)內(nèi)不會(huì)有數(shù)據(jù)的新增,,同時(shí)通過遷移工具來進(jìn)行數(shù)據(jù)遷移,,并記錄源和目標(biāo)訪問路徑的變化,并在遷移完成后,,交由應(yīng)用系統(tǒng)來更新成新的訪問路徑,,并確認(rèn)從應(yīng)用端能夠正常訪問目標(biāo)存儲(chǔ)。整個(gè)遷移視數(shù)據(jù)量的大小可能會(huì)分批遷移,,從而保證數(shù)據(jù)遷移能夠順暢完成,。所以我建議要講數(shù)據(jù)遷移視為一個(gè)服務(wù)項(xiàng)目來根據(jù)實(shí)際情況來處理比較好。

在實(shí)際的項(xiàng)目里,,源存儲(chǔ)不一定是塊,、 NAS 這種存儲(chǔ),有可能是數(shù)據(jù)庫,、應(yīng)用,,所以具體到不同企業(yè)的實(shí)際情況,遷移方法可能有很大不同,。

另外有的企業(yè)會(huì)在存儲(chǔ)和應(yīng)用之間設(shè)置一個(gè)輕量級(jí)數(shù)據(jù)抽象層,,這個(gè)數(shù)據(jù)抽象層可以屏蔽底層數(shù)據(jù)存儲(chǔ)的差異,,對(duì)外提供統(tǒng)一的面向業(yè)務(wù)的應(yīng)用訪問接口,,這個(gè)抽象層可以兼具數(shù)據(jù)遷移的功能,從而實(shí)現(xiàn)底層存儲(chǔ)技術(shù)的更換,,對(duì)上層的應(yīng)用而言是沒有任何感知的,。

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

數(shù)據(jù)遷移,這是一個(gè)老生常談的問題,。非結(jié)構(gòu)化數(shù)據(jù)的遷移,,其實(shí)也不是什么新事物。一般來說,,有兩種遷移方式,,一種是對(duì)用戶透明的遷移,用戶不需要關(guān)心數(shù)據(jù)位置,,這種方式需要考慮數(shù)據(jù)的指針管理,;一種是對(duì)用戶不透明的,需要訪問不同的數(shù)據(jù)位置以獲取數(shù)據(jù),,這需要用戶端和數(shù)據(jù)存儲(chǔ)之間協(xié)商數(shù)據(jù)的訪問路徑,。這兩種方式在我們的數(shù)據(jù)湖平臺(tái)中均提供。兩種方式各有優(yōu)先考慮的重點(diǎn),,具體選用哪種方式需要考慮應(yīng)用場(chǎng)景以及應(yīng)用開發(fā)的相關(guān)問題,。

2、如何提高非結(jié)構(gòu)化數(shù)據(jù)遷移的效率,?

【問題詳述】非結(jié)構(gòu)化數(shù)據(jù)遷移過程中,,影像數(shù)據(jù)(如圖片,、 PDF 、影像件)等典型特征數(shù)據(jù)遷移速度極慢,,遷移所需時(shí)間窗口非常長,,在保證業(yè)務(wù)連續(xù)性的前提下,如何有效加速由傳統(tǒng)存儲(chǔ)向?qū)ο蟠鎯?chǔ)的遷移效率,?

@白光茁 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

數(shù)據(jù)遷移的速度受限于源存儲(chǔ)系統(tǒng),、遷移程序、網(wǎng)絡(luò)和目標(biāo)存儲(chǔ)系統(tǒng),。一般情況下源存儲(chǔ)系統(tǒng)會(huì)成為瓶頸,,同時(shí)要保證業(yè)務(wù)能夠繼續(xù)對(duì)外提供服務(wù),遷移不能對(duì)源存儲(chǔ)系統(tǒng)造成壓力,,所以遷移的窗口都會(huì)非常長,。常見的處理方法是通過修改應(yīng)用訪問存儲(chǔ)邏輯,所有新增數(shù)據(jù)全部寫入到目標(biāo)對(duì)象存儲(chǔ)中,,舊的源存儲(chǔ)里的數(shù)據(jù)只用于讀取,,不會(huì)有任何的新增數(shù)據(jù),同時(shí)通過應(yīng)用或者遷移程序進(jìn)行數(shù)據(jù)遷移,。

除此之外,,還有的做法是把源存儲(chǔ)或者系統(tǒng)的數(shù)據(jù)通過備份或者復(fù)制的方式,拷貝到一套新的系統(tǒng)中,,專門用于數(shù)據(jù)遷移,,但是這種做法投入會(huì)很高,用的也比較少,。

再者就是從應(yīng)用架構(gòu)上解決,,在底層存儲(chǔ)系統(tǒng)和前端應(yīng)用之間添加一個(gè)輕量級(jí)的數(shù)據(jù)抽象層,這個(gè)抽象層可以對(duì)外提供統(tǒng)一的數(shù)據(jù)訪問接口,。這個(gè)抽象層也負(fù)責(zé)在不同的存儲(chǔ)技術(shù)之間進(jìn)行數(shù)據(jù)遷移,,這樣不管采用何種的存儲(chǔ)技術(shù),都可以靈活的進(jìn)行處理,。

具體采用何種方式更優(yōu),,還是要取決于企業(yè)的實(shí)際情況,所以我比較建議把數(shù)據(jù)遷移當(dāng)成是一個(gè)服務(wù)項(xiàng)目來處理,。

3,、關(guān)于非結(jié)構(gòu)化數(shù)據(jù),存量數(shù)據(jù)如何從傳統(tǒng)存儲(chǔ)遷移到非結(jié)構(gòu)化存儲(chǔ),?

【問題詳述】目前傳統(tǒng)存儲(chǔ)上存放海量影像數(shù)據(jù),,如果在規(guī)定變更時(shí)間內(nèi)將存量數(shù)據(jù)從傳統(tǒng)存儲(chǔ)遷移至非結(jié)構(gòu)化存儲(chǔ),希望能否有經(jīng)驗(yàn)可分享下。

@白光茁 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

這個(gè)主要還是要看源端存儲(chǔ)和目標(biāo)端存儲(chǔ)采用的具體技術(shù)來進(jìn)行選擇,。如果采用最通用的方案,,一般有兩種,第一種就是直接通過應(yīng)用進(jìn)行數(shù)據(jù)遷移,,第二種就是通過外部的數(shù)據(jù)遷移工具來進(jìn)行遷移,。一般情況下,在文件數(shù)量巨大的情況下,,在規(guī)定的變更窗口內(nèi)是很難完成的,,因?yàn)楹芏嗲闆r下,源存儲(chǔ)或者說源系統(tǒng)沒辦法支撐大量數(shù)據(jù)的同時(shí)讀取,。所以思路會(huì)轉(zhuǎn)變成,,如何在不影響生產(chǎn)的情況下進(jìn)行數(shù)據(jù)遷移,在這種思路下,,一般情況是在遷移的過程中,,應(yīng)用會(huì)同時(shí)接入源端存儲(chǔ)和目標(biāo)端存儲(chǔ),同時(shí)將所有新增數(shù)據(jù)寫入到目標(biāo)端存儲(chǔ),,這樣源端存儲(chǔ)不會(huì)有任何新增數(shù)據(jù),。接下來有兩種處理方式,一種就是通過數(shù)據(jù)備份或者存儲(chǔ)拷貝將數(shù)據(jù)在其他系統(tǒng)上拉起,,作為遷移的源端,,來盡快進(jìn)行數(shù)據(jù)遷移,這樣不會(huì)對(duì)現(xiàn)有系統(tǒng)造成影響,,但是這樣也有劣勢(shì),,就是成本比較高,。還有一種常見的做法就是在把現(xiàn)有系統(tǒng)作為源端,,通過遷移工具進(jìn)行遷移??傮w而言由于應(yīng)用在整個(gè)遷移過程中能夠正常訪問所有數(shù)據(jù),,所以遷移時(shí)間的長短,對(duì)業(yè)務(wù)是沒有影響的,,只是在遷移完成后,,進(jìn)行割接的時(shí)候申請(qǐng)變更窗口就可以了。

還有一種解決辦法就是,,在存儲(chǔ)和應(yīng)用之間引入一個(gè)數(shù)據(jù)抽象層,,這個(gè)抽象層會(huì)對(duì)外提供一個(gè)統(tǒng)一的數(shù)據(jù)訪問接口,來屏蔽底層存儲(chǔ)技術(shù),。同時(shí)這個(gè)抽象層還可以進(jìn)行數(shù)據(jù)遷移,,這樣保證不管底層存儲(chǔ)技術(shù)如何變化,對(duì)外的服務(wù)是統(tǒng)一的。當(dāng)然這個(gè)方法更多的是從應(yīng)用架構(gòu)上去進(jìn)行處理,,牽扯到的部門會(huì)非常多,。

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

我們提供包括基于快照、基于并行訪問等等多種遷移工具,,具體使用何種工具需要看現(xiàn)有的詳細(xì)需求,。所有的工具都有成功案例可參考。舉例來說,,針對(duì)變更時(shí)間窗緊張的客戶,,我們會(huì)在設(shè)備帶寬允許的情況下,增多遷移器( Migeration Agent )的數(shù)量,,以提升遷移速度,。而快照方式,我們能夠以中間聯(lián)接的最高速度實(shí)現(xiàn)數(shù)據(jù)傳輸,。


4,、大量非結(jié)構(gòu)化數(shù)據(jù)遷移的問題?

【問題詳述】現(xiàn)有保險(xiǎn)影像系統(tǒng)中存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù)至少是百萬或千萬個(gè)文件量級(jí),,想問下對(duì)于這種量級(jí)的文件,,是否有穩(wěn)妥的遷移方案,可以保證將所有數(shù)據(jù)完整遷移至對(duì)象存儲(chǔ),,并且遷移后可以提供驗(yàn)證,。

@白光茁 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

我這邊做過的項(xiàng)目里,一般遷移方案分兩種,,第一種是由應(yīng)用進(jìn)行遷移,,第二種是以遷移服務(wù)項(xiàng)目的方式進(jìn)行遷移?;镜倪w移思路是新數(shù)據(jù)寫入到對(duì)象存儲(chǔ),,老的存儲(chǔ)只用于讀取,這樣整個(gè)遷移的數(shù)據(jù)集就是一個(gè)固定的數(shù)據(jù)集,,這樣便于并發(fā)進(jìn)行遷移處理,,在整個(gè)遷移過程中,遷移工具會(huì)保證數(shù)據(jù)能夠完整把數(shù)據(jù)遷移到對(duì)象存儲(chǔ),。我比較建議把數(shù)據(jù)遷移當(dāng)成一個(gè)遷移服務(wù)項(xiàng)目來看,,因?yàn)檫w移過程還是有很多需要協(xié)調(diào)工作來做。數(shù)據(jù)的驗(yàn)證的話,,遷移工具是會(huì)來做,。但是在最終割接以前,還是要請(qǐng)應(yīng)用部門也進(jìn)行一次數(shù)據(jù)驗(yàn)證,。

此外有的企業(yè)會(huì)在底層存儲(chǔ)和上層應(yīng)用之間添加一個(gè)很輕量的數(shù)據(jù)抽象層,,來屏蔽底層不同存儲(chǔ)技術(shù)的差異,,對(duì)外封裝成一個(gè)面向應(yīng)用的統(tǒng)一訪問接口。同時(shí)這個(gè)抽象層會(huì)提供數(shù)據(jù)在不同存儲(chǔ)或者不同存儲(chǔ)技術(shù)之間進(jìn)行遷移的功能,。這樣不管是底層存儲(chǔ)技術(shù)如何變遷,,對(duì)上層應(yīng)用基本是沒有任何影響的。當(dāng)然這種做法需要從整個(gè)應(yīng)用架構(gòu)角度去設(shè)計(jì)規(guī)劃,。具體采用哪種方案還是要取決于每個(gè)企業(yè)自己內(nèi)部的實(shí)際情況,。

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

采用數(shù)據(jù)湖的其中一個(gè)重要優(yōu)勢(shì)就是不再需要做數(shù)據(jù)遷移。而對(duì)于傳統(tǒng)的解決方案,,對(duì)于大量的非結(jié)構(gòu)化數(shù)據(jù)遷移,,是一個(gè)費(fèi)時(shí)費(fèi)力的工作。針對(duì)這種情況,,我們提供了一些工具,,幫助用戶來做數(shù)據(jù)遷移,如基于快照和遷移,、基于并行訪問的遷移等等,,需要根據(jù)具體的情況來選用。

四,、非結(jié)構(gòu)化數(shù)據(jù)解決方案相關(guān)問題

1,、DellEMC ECS 對(duì)象存儲(chǔ)有什么優(yōu)勢(shì)?

@dawey 某大型券商 技術(shù)經(jīng)理:

Dell EMC 在 Garner 的分布文件 & 對(duì)象存儲(chǔ)的魔力象限中多年一直處于領(lǐng)導(dǎo)象限的第一位置,。這是市場(chǎng)對(duì) Dell EMC 對(duì)象存儲(chǔ)的認(rèn)可,。ECS 擴(kuò)展了 S3 的支持:允許用戶在 bucket 層面自定義元數(shù)據(jù)( meta data ) . 這些自定義的 Meta data 跟系統(tǒng)級(jí)的 Meta data 一道,可以讓用戶以更簡(jiǎn)單的方式從 bucket 中批量過濾并提取符合一定條件的對(duì)象,。

2,、PowerScale 適用的保險(xiǎn)場(chǎng)景有哪些?

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

PowerScale 作為數(shù)據(jù)湖平臺(tái)的核心組成部分,,在保險(xiǎn)行業(yè)有很多的應(yīng)用場(chǎng)景,,從傳統(tǒng)的影像系統(tǒng)、數(shù)據(jù)分析到新型的用戶畫像,、智能風(fēng)控,,都可以使用 PowerScale 來搭建數(shù)據(jù)湖平臺(tái)。

3,、PowerScale 與 isilon 在技術(shù)原理上有什么差異?在 EMC 數(shù)據(jù)湖方案中這兩者的地位又如何,?

@王國明 戴爾科技集團(tuán) 高級(jí)系統(tǒng)工程師:

PowerScale 是新的平臺(tái),,是基于 Isilon 的基礎(chǔ)上的一次進(jìn)化。PowerScale 采用 OneFS 9.0 ,,同時(shí)提供 PowerScale 專用硬件和 Isilon 硬件的支持,,二者支持混裝,。OneFS 9 在繼承 Isilon 以前的優(yōu)點(diǎn)前提下,提供了諸多新的特性,,如 S3 的支持,,在線數(shù)據(jù)縮減等等。

在數(shù)據(jù)湖解決方案中,, PowerScale 會(huì)是我們 Isilon ,、 ECS 、 SDP 的有力補(bǔ)充,,提高了需求覆蓋以及更好的投入產(chǎn)出比,。

原題:大數(shù)據(jù)時(shí)代下保險(xiǎn)業(yè)海量非結(jié)構(gòu)化存儲(chǔ)選型策略線上交流問答總結(jié)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多