执行 ./bin/stop-all.sh 脚本一直提示没有可停止的namenode、datanode、secondarynode。可是输入 jps 命令,发现hadoop 已经启动。
[root@xxxxxx src]# bash hadoop-2.6.5/sbin/stop-all.sh
This script is Deprecated. Instead use stop-dfs.sh and stop-yarn.sh
Stopping namenodes on [master]
master: no namenode to stop
master: no datanode to stop
slave1: no datanode to stop
Stopping secondary namenodes [0.0.0.0]
0.0.0.0: no secondarynamenode to stop
stopping yarn daemons
no resourcemanager to stop
master: no nodemanager to stop
slave1: no nodemanager to stop
no proxyserver to stop
[root@xxxxxx src]# jps
27634 JobHistoryServer
16372 NameNode
27444 Master
27156 ResourceManager
2405 DataNode
2700 NodeManager
16541 SecondaryNameNode
11502 Jps
问 题的原因是:hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下,linux默认会每 隔一段时间(一般是一个月或者7天左右)去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和hadoop- hadoop-namenode.pid两个文件后,namenode自然就找不到datanode上的这两个进程了。
解决办法
1、jps查看所有进程的pid,手动杀死进程 kill -9 pid,多个节点都需要操作!
为了避免下次也出现问题,在配置文件中$HADOOP_HOME/conf/hadoop-env.sh中添加如下,
export HADOOP_PID_DIR=${HADOOP_HOME}/pids
2、重启Hadoop集群,即可。
|
|