impala 概述

任易x9cojw24ff 2021-08-09

展開全文

什么是Impala,？

Impala是用于處理存儲在Hadoop集群中的大量數(shù)據(jù)的MPP（大規(guī)模并行處理）SQL查詢引擎,。它是一個用C ++和Java編寫的開源軟件,。與其他Hadoop的SQL引擎相比，它提供了高性能和低延遲,。

換句話說,，Impala是性能最高的SQL引擎（提供類似RDBMS的體驗），它提供了訪問存儲在Hadoop分布式文件系統(tǒng)中的數(shù)據(jù)的最快方法,。

Impala通過使用標準組件（如HDFS，HBase,，Metastore,，YARN和Sentry）將傳統(tǒng)分析數(shù)據(jù)庫的SQL支持和多用戶性能與Apache Hadoop的可擴展性和靈活性相結(jié)合,。

Impala將相同的元數(shù)據(jù)，SQL語法（Hive SQL）,，ODBC驅(qū)動程序和用戶界面（Hue Beeswax）用作Apache Hive,，為面向批量或?qū)崟r查詢提供熟悉且統(tǒng)一的平臺。

與Apache Hive不同,，Impala不基于MapReduce算法,。它實現(xiàn)了一個基于守護進程的分布式架構(gòu)，它負責在同一臺機器上運行的查詢執(zhí)行的所有方面,。

因此,，它減少了使用MapReduce的延遲，這使Impala比Apache Hive快,。

以下是Cloudera Impala的一些值得注意的優(yōu)點的列表,。

使用impala，您可以使用傳統(tǒng)的SQL知識以極快的速度處理存儲在HDFS中的數(shù)據(jù),。
由于在數(shù)據(jù)駐留（在Hadoop集群上）時執(zhí)行數(shù)據(jù)處理,，因此在使用Impala時，不需要對存儲在Hadoop上的數(shù)據(jù)進行數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)移動,。
使用Impala,，您可以訪問存儲在HDFS，HBase和Amazon s3中的數(shù)據(jù),，而無需了解Java（MapReduce作業(yè)）,。您可以使用SQL查詢的基本概念訪問它們,。
為了在業(yè)務工具中寫入查詢，數(shù)據(jù)必須經(jīng)歷復雜的提取 - 變換負載（ETL）周期,。但是,，使用Impala，此過程縮短了,。加載和重組的耗時階段通過新技術(shù)克服,，如探索性數(shù)據(jù)分析和數(shù)據(jù)發(fā)現(xiàn)，使過程更快,。
Impala正在率先使用Parquet文件格式,，這是一種針對數(shù)據(jù)倉庫場景中典型的大規(guī)模查詢進行優(yōu)化的柱狀存儲布局。

以下是cloudera Impala的功能 -

Impala可以根據(jù)Apache許可證作為開源免費提供,。
Impala支持內(nèi)存中數(shù)據(jù)處理,，即，它訪問/分析存儲在Hadoop數(shù)據(jù)節(jié)點上的數(shù)據(jù),，而無需數(shù)據(jù)移動,。
您可以使用Impala使用類SQL查詢訪問數(shù)據(jù)。
與其他SQL引擎相比,，Impala為HDFS中的數(shù)據(jù)提供了更快的訪問,。
使用Impala，您可以將數(shù)據(jù)存儲在存儲系統(tǒng)中,，如HDFS,，Apache HBase和Amazon s3。
您可以將Impala與業(yè)務智能工具（如Tableau,，Pentaho,，Micro策略和縮放數(shù)據(jù)）集成。
Impala支持各種文件格式,，如LZO,，序列文件，Avro,，RCFile和Parquet,。
Impala使用Apache Hive的元數(shù)據(jù)，ODBC驅(qū)動程序和SQL語法,。

Impala使用類似于SQL和HiveQL的Query語言,。下表描述了SQL和Impala查詢語言之間的一些關(guān)鍵差異。

Impala	關(guān)系型數(shù)據(jù)庫
Impala使用類似于HiveQL的類似SQL的查詢語言,。	關(guān)系數(shù)據(jù)庫使用SQL語言,。
在Impala中，您無法更新或刪除單個記錄。	在關(guān)系數(shù)據(jù)庫中,，可以更新或刪除單個記錄,。
Impala不支持事務。	關(guān)系數(shù)據(jù)庫支持事務,。
Impala不支持索引,。	關(guān)系數(shù)據(jù)庫支持索引。
Impala存儲和管理大量數(shù)據(jù)（PB）,。	與Impala相比,，關(guān)系數(shù)據(jù)庫處理的數(shù)據(jù)量較少（TB）。

雖然Cloudera Impala使用與Hive相同的查詢語言,，元數(shù)據(jù)和用戶界面，但在某些方面它與Hive和HBase不同,。下表介紹了HBase,，Hive和Impala之間的比較分析。

HBase	Hive	Impala
HBase是基于Apache Hadoop的寬列存儲數(shù)據(jù)庫,。它使用BigTable的概念,。	Hive是一個數(shù)據(jù)倉庫軟件,。使用它,，我們可以訪問和管理基于Hadoop的大型分布式數(shù)據(jù)集。	Impala是一個管理,，分析存儲在Hadoop上的數(shù)據(jù)的工具,。
HBase的數(shù)據(jù)模型是寬列存儲。	Hive遵循關(guān)系模型,。	Impala遵循關(guān)系模型,。
HBase是使用Java語言開發(fā)的。	Hive是使用Java語言開發(fā)的,。	Impala是使用C ++開發(fā)的,。
HBase的數(shù)據(jù)模型是無模式的。	Hive的數(shù)據(jù)模型是基于模式的,。	Impala的數(shù)據(jù)模型是基于模式的,。
HBase提供Java，RESTful和Thrift API,。	Hive提供JDBC,，ODBC，Thrift API,。	Impala提供JDBC和ODBC API,。
支持C，C＃，C ++,，Groovy,，Java PHP，Python和Scala等編程語言,。	支持C ++,，Java，PHP和Python等編程語言,。	Impala支持所有支持JDBC / ODBC的語言,。
HBase提供對觸發(fā)器的支持。	Hive不提供任何觸發(fā)器支持,。	Impala不提供對觸發(fā)器的任何支持,。