久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

最近經(jīng)歷的一些大數(shù)據(jù)(Spark/Hadoop)面試題

 jasonbetter 2017-06-07

公司A:

  • 1.講講你做的過的項目。 項目里有哪些 難點重點注意點呢,?

  • 2.講講多線程吧,, 要是你,,你怎么實現(xiàn)一個線程池呢?

  • 3.講一下Mapreduce或者hdfs的原理和機制,。map讀取數(shù)據(jù)分片,。

  • 4.shuffle 是什么,? 怎么調(diào)優(yōu),?

  • 5.項目用什么語言寫? Scala,? Scala的特點,? 和Java的區(qū)別?

  • 6.理論基礎(chǔ)怎么樣,,比如數(shù)據(jù)結(jié)構(gòu),,里面的快速排序,或者,,樹,? 講一講你了解的樹的知識,?

  • 7.數(shù)學(xué)怎么樣呢,?

  • 8.講一下數(shù)據(jù)庫,SQl ,,左外連接,, 原理,實現(xiàn),?

  • 9.還了解過數(shù)據(jù)的什么知識,? 數(shù)據(jù)庫引擎?
  • 10.Hadoop的機架怎么配置的,?
  • 11.Hbase的設(shè)計有什么心得?
  • 12.Hbase的操作是用的什么API還是什么工具,?
  • 13.對調(diào)度怎么理解.? 用什么工具嗎?

  • 14.用kettle 這種工具還是 自己寫程序,? 你們公司是怎么做的,?

  • 15.你們數(shù)據(jù)中心開發(fā)周期是多長?
  • 16.你們hbase里面是存一些什么數(shù)據(jù),。

二面,。三個人。

  • 1.講講你做的項目,。

  • 2.平時 對多線程 這方面是怎么處理呢,? 異步 是怎么思考呢? 遇到的一些鎖啊,, 是怎么做的呢? 比如兩個人同時操作一樣?xùn)|西,。怎么做的呢,?一些并發(fā)操作設(shè)計到一些變量怎么做的呢,?

  • 3.你們用的最多是 http協(xié)議吧,? 有沒有特殊的頭呢? 講講 你對tcp/ip的理解,?
  • 4.有沒有用過Zookeeper呢,? Zookeeper的適用場景是什么? HA 狀態(tài)維護 分布式鎖 全局配置文件管理 操作Zookeeper是用的什么,?

Spark方面:

  • 5.spark開發(fā)分兩個方面,?哪兩個方面呢?

  • 6.比如 一個讀取hdfs上的文件,,然后count有多少行的操作,,你可以說說過程嗎。那這個count是在內(nèi)存中,,還是磁盤中計算的呢,?磁盤中。
  • 7.spark和Mapreduce快,? 為什么快呢,? 快在哪里呢,? 1.內(nèi)存迭代,。2.RDD設(shè)計。 3,算子的設(shè)計,。
  • 8.spark sql又為什么比hive快呢,?
  • 10.RDD的數(shù)據(jù)結(jié)構(gòu)是怎么樣的? Partition數(shù)組,。 dependence
  • 11.hadoop的生態(tài)呢,。說說你的認識。 hdfs底層存儲 hbase 數(shù)據(jù)庫 hive數(shù)據(jù)倉庫 Zookeeper分布式鎖 spark大數(shù)據(jù)分析

公司B:

  • 1.Spark工作的一個流程,。
提交任務(wù),。 
QQ圖片20161019131411.png
用戶提交一個任務(wù)。 入口是從sc開始的,。 sc會去創(chuàng)建一個taskScheduler,。根據(jù)不同的提交模式,, 會根據(jù)相應(yīng)的taskchedulerImpl進行任務(wù)調(diào)度。
同時會去創(chuàng)建SchedulerDAGScheduler,。DAGScheduler 會根據(jù)RDD的寬依賴或者窄依賴,,進行階段的劃分。劃分好后放入taskset中,,交給taskscheduler ,。
appclient會到master上注冊。首先會去判斷數(shù)據(jù)本地化,,盡量選最好的本地化模式去執(zhí)行,。
打散 Executor選擇相應(yīng)的Executor去執(zhí)行。ExecutorRunner會去創(chuàng)建CoarseGrainerExecutorBackend進程,。 通過線程池的方式去執(zhí)行任務(wù),。

反向:
ExecutorSchedulerBackend反向注冊

Spark On Yarn模式下。 driver負責(zé)計算調(diào)度,。appmaster 負責(zé)資源的申請,。
  • 2.Hbase的PUT的一個過程。

  • 3.RDD算子里操作一個外部map比如往里面put數(shù)據(jù),。然后算子外再遍歷map,。有什么問題嗎。

  • 4.shuffle的過程,。調(diào)優(yōu),。

  • 5.5個partition里面分布有12345678910.用算子求最大值或者和,。不能用廣播變量和累加器,。或者sortbykey.

  • 6.大表和小表join.
  • 7.知道spark怎么讀hbase嗎,?spark on hbase.,。華為的。
  • 8.做過hbase的二級索引嗎,?
  • 9.sort shuffle的優(yōu)點,?
  • 10.stage怎么劃分的? 寬依賴窄依賴是什么,?

公司W(wǎng):

  • 1.講講你做過的項目(一個整體思路)
  • 2.問問大概情況,。公司里集群規(guī)模。hbase數(shù)據(jù)量,。數(shù)據(jù)規(guī)模,。
  • 3.然后挑選數(shù)據(jù)工廠開始詳細問。問hbase.,。加閑聊,。
  • 4.問二次排序是什么,。topn是什么。二次排序要繼承什么接口,?
  • 5.計算的數(shù)據(jù)怎么來的,。
  • 6.kakfadirect是什么,,。為什么要用這個,,有什么優(yōu)點?,。和其他的有什么區(qū)別,。
http://blog.csdn.net/erfucun/article/details/52275369

  /**
   * Create an input stream that directly pulls messages from Kafka Brokers
   * without using any receiver. This stream can guarantee that each message
   * from Kafka is included in transformations exactly once (see points below).
   *
   * Points to note:
   *  - No receivers: This stream does not use any receiver. It directly queries Kafka
   *  - Offsets: This does not use Zookeeper to store offsets. The consumed offsets are tracked
   *    by the stream itself. For interoperability with Kafka monitoring tools that depend on
   *    Zookeeper, you have to update Kafka/Zookeeper yourself from the streaming application.
   *    You can access the offsets used in each batch from the generated RDDs (see
   *    [[org.apache.spark.streaming.kafka.HasOffsetRanges]]).
   *  - Failure Recovery: To recover from driver failures, you have to enable checkpointing
   *    in the [[StreamingContext]]. The information on consumed offset can be
   *    recovered from the checkpoint. See the programming guide for details (constraints, etc.).
   *  - End-to-end semantics: This stream ensures that every records is effectively received and
   *    transformed exactly once, but gives no guarantees on whether the transformed data are
   *    outputted exactly once. For end-to-end exactly-once semantics, you have to either ensure
   *    that the output operation is idempotent, or use transactions to output records atomically.
   *    See the programming guide for more details.
   *
   * @param ssc StreamingContext object
   * @param kafkaParams Kafka <a href="http://kafka./documentation.html#configuration">
   *    configuration parameters</a>. Requires "metadata.broker.list" or "bootstrap.servers"
   *    to be set with Kafka broker(s) (NOT zookeeper servers) specified in
   *    host1:port1,host2:port2 form.
   * @param fromOffsets Per-topic/partition Kafka offsets defining the (inclusive)
   *    starting point of the stream
   * @param messageHandler Function for translating each message and metadata into the desired type
   */
  • 7.問了shuffle過程。
  • 8.怎么調(diào)優(yōu)的,,jvm怎么調(diào)優(yōu)的,?
  • 9.jvm結(jié)構(gòu)?堆里面幾個區(qū),?
  • 10.數(shù)據(jù)清洗怎么做的,?
  • 11.怎么用spark做數(shù)據(jù)清洗
  • 12.跟我聊了spark的應(yīng)用,商場里廣告投放,,以及黃牛檢測
  • 13.spark讀取 數(shù)據(jù),,是幾個Partition呢? hdfs幾個block 就有幾個 Partition,?
  • 14.spark on yarn的兩種模式? client 模式,? 和cluster模式?
  • 15.jdbc,?mysql的驅(qū)動包名字叫什么,?
  • 16.region多大會分區(qū)?

公司Q

  • 1.說說Mapreduce,?一整個過程的理解,。講一下。
  • 2.hbase存數(shù)據(jù)用什么rowkey,?加時間戳的話,,會不會出現(xiàn)時間戳重復(fù)的問題,怎么做的呢,?
  • 3.Spring的兩大模塊,? AOP,IOC在你們項目中分別是怎么用的呢,?
  • 4.你們集群的規(guī)模,, 數(shù)據(jù)量?

公司M

  • 1.畫圖,,畫Spark的工作模式,,部署分布架構(gòu)圖
  • 2.畫圖,,畫圖講解spark工作流程。以及在集群上和各個角色的對應(yīng)關(guān)系,。

  • 3.java自帶有哪幾種線程池,。
  • 4.數(shù)據(jù)是怎么收集的。 kafka收集數(shù)據(jù)的原理,?
  • 5.畫圖,,講講shuffle的過程。那你怎么在編程的時候注意避免這些性能問題,。
  • 6.講講列式存儲的 parquet文件底層格式,。
  • 7.dataset和dataframe?
  • 8.通過什么方式學(xué)習(xí)spark的,?
  • 9.有哪些數(shù)據(jù)傾斜,,怎么解決?
  • 10.寬依賴窄依賴,?
  • 11.yarn的原理,?
  • 12.BlockManager怎么管理硬盤和內(nèi)存的。
  • 13.哪些算子操作涉及到shuffle
  • 14.看過源碼,? 你熟悉哪幾個部分的源碼,?
  • 15.集群上 nodemanager和ResourceManager的數(shù)量關(guān)系?
  • 16.spark怎么整合hive,? 大概這樣,。 spark on hive 。 hive還是hive 執(zhí)行引擎是spark,。

其他人的:

  • 1.Spark如何處理結(jié)構(gòu)化數(shù)據(jù),,Spark如何處理非結(jié)構(gòu)話數(shù)據(jù)?
  • 2.Spark性能優(yōu)化主要有哪些手段,?
  • 3.簡要描述Spark分布式集群搭建的步驟
  • 4.對于Spark你覺得他對于現(xiàn)有大數(shù)據(jù)的現(xiàn)狀的優(yōu)勢和劣勢在哪里,?
  • 5.對于算法是否進行過自主的研究設(shè)計,?
  • 6.簡要描述你了解的一些數(shù)據(jù)挖掘算法與內(nèi)容 基本我有印象的就這幾個問題,,聊了2個多小時,腦子都差點被問干了

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多