Tachyon:吞吐量超過(guò)HDFS 300多倍 來(lái)自伯克利的分布式文件系統(tǒng)AMPLabHadoopHDFSTachyon
摘要:你的Hadoop足夠快嗎,?美國(guó)加州大學(xué)伯克利分校的AMPLab基于Hadoop的核心組件開(kāi)發(fā)出一個(gè)更快的版本Tachyon,,它從底層重構(gòu)了Hadoop平臺(tái)。不過(guò)Tachyon的吞吐量要比HDFS高300多倍,?!皼](méi)有最快,只有更快”!
Hadoop足夠快嗎,?美國(guó)加州大學(xué)伯克利分校的AMPLab基于Hadoop的核心組件開(kāi)發(fā)出一個(gè)更快的版本Tachyon。AMPLab從底層重建了Hadoop平臺(tái),,“沒(méi)有最快,,只有更快”。 AMPLab在大數(shù)據(jù)領(lǐng)域最知名的產(chǎn)品是Spark,,它是一個(gè)內(nèi)存中并行處理的框架,,Spark的創(chuàng)造者聲稱(chēng):使用Shark運(yùn)行并行處理Job速度要比MapReduce快100倍。又因?yàn)镾park是在內(nèi)存運(yùn)行,,所以Shark可與Druid或者SAP's HANA系統(tǒng)一較高下,。Spark也為ClearStory下一代分析和可視化服務(wù)提供處理引擎。如果你喜歡用Hive作為Hadoop的數(shù)據(jù)倉(cāng)庫(kù),,那么你一定會(huì)喜歡Shark,,因?yàn)樗砹恕癏ive on Spark”。 AMPLab的最新目標(biāo)就是Hadoop分布式文件系統(tǒng)(HDFS),,不過(guò)HDFS在可用性和速度方面一直受人詬病,,所以AMPLab創(chuàng)建了Tachyon( 在High Scalability上非常奪目,引起了Derrick Harris的注意),,“Tachyon是一個(gè)高容錯(cuò)的分布式文件系統(tǒng),,允許文件以?xún)?nèi)存的速度在集群框架中進(jìn)行可靠的共享,類(lèi)似Spark和 MapReduce,。通過(guò)利用lineage信息,,積極地使用內(nèi)存,Tachyon的吞吐量要比HDFS高300多倍,。Tachyon都是在內(nèi)存中處理緩存文件,,并且讓不同的 Jobs/Queries以及框架都能內(nèi)存的速度來(lái)訪(fǎng)問(wèn)緩存文件”。 當(dāng)然,,AMPLab并不是第一個(gè)對(duì)HDFS提出質(zhì)疑的組織,,同時(shí)也有很多商業(yè)版本可供選擇,像Quantcast就自己開(kāi)發(fā)了開(kāi)源文件系統(tǒng),,聲稱(chēng)其在運(yùn)行大規(guī)模文件系統(tǒng)時(shí)速度更快,、更高效。 誠(chéng)然,,AMPLab所做的工作就是打破現(xiàn)有商業(yè)軟件的瓶頸限制,。如果碰巧破壞了現(xiàn)狀,那么就順其自然吧,!不過(guò),,對(duì)于用戶(hù)來(lái)說(shuō),AMPLab只是為那些尋找合適工具的人員提供了一種新的選擇,AMPLab的合作伙伴和贊助商包括谷歌,,F(xiàn)acebook,,微軟和亞馬遜網(wǎng)絡(luò)服務(wù),它們當(dāng)然非常樂(lè)意看到這些新技術(shù),,如果很有必要的話(huà),。 AMPLab的其他項(xiàng)目包括PIQL,類(lèi)似于一種基于鍵/值存儲(chǔ)的SQL查詢(xún)語(yǔ)言,;MLBase,,基于分布式系統(tǒng)的機(jī)器學(xué)習(xí)系統(tǒng);Akaros,,一個(gè)多核和大型SMP系統(tǒng)的操作系統(tǒng),;Sparrow,一個(gè)低延遲計(jì)算集群調(diào)度系統(tǒng),。(文/王鵬,,審校/仲浩) |
|
來(lái)自: openlog > 《技術(shù)探討》