大數據培訓一度受到廣大IT愛好者的追捧,,成為最熱門的培訓學科!前景無需多述,,高薪就業(yè),,職場一片坦途!今天就為大家講解下關于大數據的知識要點,。問: Hadoop和spark的性能有何區(qū)別,。 如果說Hadoop是一家大型包工隊,我們可以通過它組織人員進行合作,,搬磚建造房屋,,弊端在于速度較慢。 Spark是另一家包工隊,,成立時間較晚,,但是他們搬磚更為靈活,可以實時交互地蓋房子,,工作效率比Hadoop快得多,。 當Hadoop開始升級,指定調度專家YARN調度工人,。Spark從多個倉庫搬磚(HDFS,,Cassandra,S3,HBase),,還允許不同專家如YARN/ MESOS對人員和任務進行調度,。 當然,Spark和Hadoop團隊進行合作,問題變得更加復雜,。作為兩個獨立的包工隊,,二者都有著各自的優(yōu)缺點和特定的業(yè)務用例。 因此,,我們說Hadoop和spark的性能區(qū)別在于: Spark在內存中運行速度比Hadoop快100倍,,在磁盤上運行速度快10倍。眾所周知,,Spark在數量只有十分之一的機器上,,對100TB數據進行排序的速度比Hadoop MapReduce快3倍。此外,,Spark在機器學習應用中的速度同樣更快,,例如Naive Bayes和k-means。 Spark性能之所以比Hadoop更優(yōu),,原因在于每次運行MapReduce任務時,,Spark都不會受到輸入輸出的限制。事實證明,,應用程序的速度要快得多,。再有Spark的DAG可以在各個步驟之間進行優(yōu)化。Hadoop在MapReduce步驟之間沒有任何周期性連接,,這意味著在該級別不會發(fā)生性能調整,。但是,如果Spark與其他共享服務在YARN上運行,,則性能可能會降低并導致RAM開銷內存泄漏,。出于這個原因,如果用戶有批處理的訴求,,Hadoop被認為是更高效的系統(tǒng),。 |
|