2012年10月29日星期一

Hadoop 常用命令


  1. hadoop namenode -format
    HDFS 格式化

  2. hadoop fs -rmr wordoutput
    删除 HDFS 中 wordcount 目录

  3. hadoop fs -put word-input/ wordinput
    将本地文件系统中 word-input 上传到 HDFS 中,对应目录名为 wordinput

  4. hadoop dfs -copyFromLocal /tmp/gutenberg /user/hduser/gutenberg
    将本地文件系统上的文件 /tmp/gutenberg 复制到 Hadoop 的 HDFS /user/hduser/gutenberg 中

  5. hadoop dfs -getmerge /user/hduser/gutenberg-output /tmp/gutenberg-output
    将 HDFS 中文件 /user/hduser/gutenberg-output 复制到 本地文件系统的 /tmp/gutenberg-output

  6. hadoop dfs -ls /user/hduser/wordinput
    列出 HDFS 中 /user/hduser/wordinput 目录/文件 的信息

  7. hadoop dfs -cat /user/hduser/gutenberg-output/part-r-00000
    查看 HDFS 中文件 /user/hduser/gutenberg-output/part-r-00000

  8. hadoop jar hadoop-examples-1.0.3.jar wordcount wordinput wordoutput
    运行 wordcount JOB, wordinput 为数据处理源,wordoutput 存储 JOB 处理结果,wordinput 和 wordoutput 都为 HDFS 中目录。

  9. hadoop jar contrib/streaming/hadoop-streaming-1.0.3.jar -file /usr/local/hadoop/python/mapper.py -mapper /usr/local/hadoop-/python/mapper.py -file /usr/local/hadoop/python/reducer.py -reducer /usr/local/hadoop/python/reducer.py -input /user/hduser/wordinput -output /user/hduser/wordinput-python
    利用 Hadoop Streaming,使用 Python 脚本做为 mapper/reducer,JOB 处理的源数据为/user/hduser/wordinput, 输出结果保存于/user/hduser/wordinput-python。

  10. hadoop fsck /user
    检查 HDFS 中 /user 目录下 Blocks 的完整性

  11. hadoop fsck --delete
    删除损坏的文件

  12. hadoop balancer -threshold 5
    对 Hadoop 集群中对各个 Datanode 进行评估并使他们保持平衡。参数 threshold 表示的平衡的阀值,取值范围在 0% 到 100% 之间。该参数表示每个 Datanode 中空间使用率与 HDFS 集群总的空间使用率的差距百分比。


没有评论:

发表评论