大數據技術解析 Hadoop和spark的性能比較

好程序員IT 2019-06-12

展開全文

大數據培訓一度受到廣大IT愛好者的追捧,，成為最熱門的培訓學科！前景無需多述,，高薪就業(yè),，職場一片坦途！今天就為大家講解下關于大數據的知識要點,。問：

Hadoop和spark的性能有何區(qū)別,。

　　如果說Hadoop是一家大型包工隊，我們可以通過它組織人員進行合作,，搬磚建造房屋,，弊端在于速度較慢。

　　Spark是另一家包工隊,，成立時間較晚,，但是他們搬磚更為靈活，可以實時交互地蓋房子,，工作效率比Hadoop快得多,。

　　當Hadoop開始升級，指定調度專家YARN調度工人,。Spark從多個倉庫搬磚(HDFS,，Cassandra,S3，HBase),，還允許不同專家如YARN/ MESOS對人員和任務進行調度,。

　　當然，Spark和Hadoop團隊進行合作，問題變得更加復雜,。作為兩個獨立的包工隊,，二者都有著各自的優(yōu)缺點和特定的業(yè)務用例。

　　因此,，我們說Hadoop和spark的性能區(qū)別在于：

　　Spark在內存中運行速度比Hadoop快100倍,，在磁盤上運行速度快10倍。眾所周知,，Spark在數量只有十分之一的機器上,，對100TB數據進行排序的速度比Hadoop MapReduce快3倍。此外,，Spark在機器學習應用中的速度同樣更快,，例如Naive Bayes和k-means。

　　Spark性能之所以比Hadoop更優(yōu),，原因在于每次運行MapReduce任務時,，Spark都不會受到輸入輸出的限制。事實證明,，應用程序的速度要快得多,。再有Spark的DAG可以在各個步驟之間進行優(yōu)化。Hadoop在MapReduce步驟之間沒有任何周期性連接,，這意味著在該級別不會發(fā)生性能調整,。但是，如果Spark與其他共享服務在YARN上運行,，則性能可能會降低并導致RAM開銷內存泄漏,。出于這個原因，如果用戶有批處理的訴求,，Hadoop被認為是更高效的系統(tǒng),。