生活在别处: Hadoop 常用命令

2012年10月29日星期一

Hadoop 常用命令

hadoop namenode -format
HDFS 格式化

hadoop fs -rmr wordoutput
删除 HDFS 中 wordcount 目录

hadoop fs -put word-input/ wordinput
将本地文件系统中 word-input 上传到 HDFS 中，对应目录名为 wordinput

hadoop dfs -copyFromLocal /tmp/gutenberg /user/hduser/gutenberg
将本地文件系统上的文件 /tmp/gutenberg 复制到 Hadoop 的 HDFS /user/hduser/gutenberg 中

hadoop dfs -getmerge /user/hduser/gutenberg-output /tmp/gutenberg-output
将 HDFS 中文件 /user/hduser/gutenberg-output 复制到本地文件系统的 /tmp/gutenberg-output

hadoop dfs -ls /user/hduser/wordinput
列出 HDFS 中 /user/hduser/wordinput 目录/文件的信息

hadoop dfs -cat /user/hduser/gutenberg-output/part-r-00000
查看 HDFS 中文件 /user/hduser/gutenberg-output/part-r-00000

hadoop jar hadoop-examples-1.0.3.jar wordcount wordinput wordoutput
运行 wordcount JOB， wordinput 为数据处理源，wordoutput 存储 JOB 处理结果，wordinput 和 wordoutput 都为 HDFS 中目录。

hadoop jar contrib/streaming/hadoop-streaming-1.0.3.jar -file /usr/local/hadoop/python/mapper.py -mapper /usr/local/hadoop-/python/mapper.py -file /usr/local/hadoop/python/reducer.py -reducer /usr/local/hadoop/python/reducer.py -input /user/hduser/wordinput -output /user/hduser/wordinput-python
利用 Hadoop Streaming，使用 Python 脚本做为 mapper/reducer，JOB 处理的源数据为/user/hduser/wordinput，输出结果保存于/user/hduser/wordinput-python。

hadoop fsck /user
检查 HDFS 中 /user 目录下 Blocks 的完整性

hadoop fsck --delete
删除损坏的文件

hadoop balancer -threshold 5
对 Hadoop 集群中对各个 Datanode 进行评估并使他们保持平衡。参数 threshold 表示的平衡的阀值，取值范围在 0% 到 100% 之间。该参数表示每个 Datanode 中空间使用率与 HDFS 集群总的空间使用率的差距百分比。

没有评论:

发表评论