本節(jié)課程概覽 Hadoop 在windows 上偽分布式的安裝過程 Hadoop 在linux 上單節(jié)點偽分布式的安裝過程 集成Eclipse 開發(fā)環(huán)境 Hadoop UI 介紹 運行WordCounter 事例 第一部分:Hadoop 在windows 上偽分布式的安裝過程 安裝JDK 1.下載JDK
http://www.oracle.com/technetwork/java/javaee/downloads/java-ee-sdk-6u3-jdk-6u29-downloads-523388.html 2.解壓 或者直接運行.exe安裝 后面根據(jù)項目的實際需要來進行調(diào)整,。 安裝 Cygwin 1.下載Cygwin 網(wǎng)址: http://www./setup.exe 2.安裝Cygwin 1. Net Category 下的OpenSSL 2. Base Category 下的sed 3.Editors Category 下的vim 4.Devel Category 下subversion 后面根據(jù)項目的實際需要來進行調(diào)整,。 配置環(huán)境變量 1.配置JAVA 環(huán)境變量 PATH 和JAVA_HOME: JAVA_HOME 指向JDK安裝目錄; PATH 指向JDK的bin 啟動 SSHD 服務 1.安裝SSHD ssh-host-config 2. 啟動SSHD net start sshd ssh 的安裝和配置 實現(xiàn)ssh無密碼登陸 $ssh-keygen -t rsa 直接回車,,完成后會在~/.ssh/生成兩個文件:id_dsa 和id_dsa.pub,。這兩個是成對 出現(xiàn),類似鑰匙和鎖,。再把id_dsa.pub 追加到授權(quán)key 里面(當前并沒有authorized_keys 安裝 Hadoop 1.下載Hadoop
http://labs.mop.com/apache-mirror/hadoop/common/hadoop- 2.解壓Hadoop tar xzvf
hadoop- 配置 Hadoop 1. 配置hadoop-env.sh 2 .配置conf/core-site.xml,、conf/hdfs-site.xml、conf/mapred-site.xml文件 概念 HDFS: NameNode :管理節(jié)點 DataNode :數(shù)據(jù)節(jié)點 SecondaryNamenode : 數(shù)據(jù)源信息備份整理節(jié)點 MapReduce JobTracker :任務管理節(jié)點 Tasktracker :任務運行節(jié)點 配置文件
core-site.xml common屬性配置
hdfs-site.xml HDFS屬性配置
mapred-site.xml MapReduce屬性配置
hadoop-env.sh hadooop 環(huán)境變量配置 修改 hadoop-env.sh 配置JDK即可 export JAVA_HOME=/cygdrive/d/java/jdk core-site.xml
java代碼: 1. <configuration> 2. <property> 3. <name>fs.default.name</name> 4. <value>hdfs://localhost:9000</value> 5. </property> 6. <property> 7. <name>hadoop.tmp.dir</name> 8. <value>/hadoop</value> 9. </property> 10. </configuration>
hdfs-site.xml java代碼: 1. <configuration> 2. <property> 3. <name>dfs.replication</name> 4. <value>1</value> 5. </property> 6. </configuration> mapred-site.xml java代碼: 1. <configuration> 2. <property> 3. <name>mapred.job.tracker</name> 4. <value>localhost:9001</value> 5. </property> 6. </configuration>
啟動 Hadoop 1.格式化文件系統(tǒng) hadoop namenode –format 2. 啟動hadoop 啟動所有任務start-all.sh/stop-all.sh 啟動關(guān)閉HDFS: start-dfs.sh/stop-dfs.sh 啟動關(guān)閉MapReduce:
start-mapred.sh/stop-mapred.sh 3. 用jps命令查看進程,確保有
namenode,dataNode,JobTracker,TaskTracker 第二部分:Hadoop 在linux 上單節(jié)點偽分布式的安裝過程 安裝 JDK $chmod +x jdk-6u27-linux-i586.bin $./jdk-6u27-linux-i586.bin 安裝完后設(shè)置java 環(huán)境變量如下 命令 :/home路徑下 $vi .bashrc 然后添加如下語句 export JAVA_HOME=/home/test/ jdk export PATH =/bin:$JAVA_HOME/bin:/usr/bin:$PATH:. 然后. .bashrc使其生效 ssh 的安裝和配置 $實現(xiàn)ssh無密碼登陸 $sudo apt-get install ssh $ssh-keygen 直接回車,,完成后會在~/.ssh/生成兩個文件:id_dsa 和id_dsa.pub,。這兩個是成對 出現(xiàn),類似鑰匙和鎖,。再把id_dsa.pub 追加到授權(quán)key 里面(當前并沒有authorized_keys Hadoop 安裝 1.下載Hadoop
http://labs.mop.com/apache-mirror/hadoop/common/hadoop- 2.解壓Hadoop tar xzvf
hadoop- 3. 添加Hadoop Bin到環(huán)境變量中 修改 hadoop-env.sh 配置JDK即可 export JAVA_HOME=/cygdrive/d/java/jdk conf/core-site.xml
java代碼: 1. <configuration> 2. <property> 3. <name>fs.default.name</name> 4. <value>hdfs://localhost:9000</value> 5. </property> 6. <property> 7. <name>hadoop.tmp.dir</name> 8. <value>/hadoop</value> 9. </property> 10. </configuration>
conf/hdfs-site.xml
java代碼: 1. <configuration> 2. <property> 3. <name>dfs.replication</name> 4. <value>1</value> 5. </property> 6. </configuration>
conf/mapred-site.xml
java代碼: 1. <configuration> 2. <property> 3. <name>mapred.job.tracker</name> 4. <value>localhost:9001</value> 5. </property> 6. </configuration> 啟動 Hadoop 1.格式化文件系統(tǒng) hadoop namenode –format 2. 啟動hadoop 啟動關(guān)閉所有服務 start-all.sh/stop-all.sh 啟動關(guān)閉HDFS: start-dfs.sh/stop-dfs.sh 啟動關(guān)閉MapReduce:
start-mapred.sh/stop-mapred.sh 3. 用jps命令查看進程,確保有 namenode,dataNode,JobTracker,TaskTracker 第三部分:Hadoop UI 介紹 Hadoop 重要的端口 1.Job Tracker 管理界面:50030 2.HDFS 管理界面 :50070 3.HDFS通信端口:9000 4.MapReduce通信端口:9001 常用訪問頁面 1. HDFS 界面
http://hostname:50070 2. MapReduce 管理界面
http://hostname:50030 第四部分:運行Word Count 示例 相關(guān)步驟及命令 1.先在本地磁盤上建立兩個文件file1和file2 $ echo ”Hello world Bye
world" > >~/input/file1 $ echo ”hello hadoop bye
hadoop” > >~/input/file2 2.在HDFS上建立一個input目錄 $ hadoop fs -mkdir
/tmp/input 3.將file1和file2拷貝到hdfs的input目錄下 $ hadoop fs -put
input/* /tmp/input 4.檢查hdfs上有沒有file1,file2 $ hadoop fs -ls /tmp/input 5.執(zhí)行wordcount hadoop jar hadoop-examples- 6.運行完成,,查看結(jié)果 hadoop fs -cat /output/part-r-00000 第五部分:集成 Eclipse 開發(fā)環(huán)境 通過 Eclipse 編寫 Hadoop 程序 1.導入hadoop-core.jar及hadoop/lib下所有Jar包 2.加入Hadoop配置文件,包括conf/core-site.xml,、conf/hdfs-site.xml,、conf/mapred-site.xml,并修改相應參數(shù)。 本節(jié)課程小結(jié) 掌握了在Windows ,Linux(ubuntu)上安裝Hadoop 單節(jié)點偽分布式安裝 初次體驗了Hadoop運行的WordCounter程序 了解了Hadoop UI 掌握了Hadoop 集成到 Eclipse的情況 |
|