- hadoop namenode -format
HDFS 格式化 - hadoop fs -rmr wordoutput
删除 HDFS 中 wordcount 目录 - hadoop fs -put word-input/ wordinput
将本地文件系统中 word-input 上传到 HDFS 中,对应目录名为 wordinput - hadoop dfs -copyFromLocal /tmp/gutenberg /user/hduser/gutenberg
将本地文件系统上的文件 /tmp/gutenberg 复制到 Hadoop 的 HDFS /user/hduser/gutenberg 中 - hadoop dfs -getmerge /user/hduser/gutenberg-output /tmp/gutenberg-output
将 HDFS 中文件 /user/hduser/gutenberg-output 复制到 本地文件系统的 /tmp/gutenberg-output
- hadoop dfs -ls /user/hduser/wordinput
列出 HDFS 中 /user/hduser/wordinput 目录/文件 的信息 - hadoop dfs -cat /user/hduser/gutenberg-output/part-r-00000
查看 HDFS 中文件 /user/hduser/gutenberg-output/part-r-00000
- hadoop jar hadoop-examples-1.0.3.jar wordcount wordinput wordoutput
运行 wordcount JOB, wordinput 为数据处理源,wordoutput 存储 JOB 处理结果,wordinput 和 wordoutput 都为 HDFS 中目录。 - hadoop jar contrib/streaming/hadoop-streaming-1.0.3.jar -file /usr/local/hadoop/python/mapper.py -mapper /usr/local/hadoop-/python/mapper.py -file /usr/local/hadoop/python/reducer.py -reducer /usr/local/hadoop/python/reducer.py -input /user/hduser/wordinput -output /user/hduser/wordinput-python
利用 Hadoop Streaming,使用 Python 脚本做为 mapper/reducer,JOB 处理的源数据为/user/hduser/wordinput, 输出结果保存于/user/hduser/wordinput-python。 - hadoop fsck /user
检查 HDFS 中 /user 目录下 Blocks 的完整性 - hadoop fsck --delete
删除损坏的文件 - hadoop balancer -threshold 5
对 Hadoop 集群中对各个 Datanode 进行评估并使他们保持平衡。参数 threshold 表示的平衡的阀值,取值范围在 0% 到 100% 之间。该参数表示每个 Datanode 中空间使用率与 HDFS 集群总的空间使用率的差距百分比。
2012年10月29日星期一
Hadoop 常用命令
订阅:
博文评论
(
Atom
)
没有评论 :
发表评论