HDFS高可用单NameNode从standby恢复为active（二）

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

1、背景

有一个hdfs高可用集群因为某些操作导致其中一个namenode的信息全部丢失了。最后只剩下一个完整的namenode信息和datanode信息。于是在在启动hdfs后发现独有的namenode始终处于standby状态。即使通过hdfs haadmin -transitionToActive命令也不能强制转换namenode为active。因此hdfs一直不能正常对外提供服务。

上篇文章HDFS高可用单NameNode从standby恢复为active一_Interest1_wyt的博客-CSDN博客讲解了通过新增namenode节点的方式解决高可用hdfs集群namenode为standy的问题。新增节点解决方式虽然很好。但是需要准备一个新节点紧急情况下可能不能很快拿到可用的节点而且新节点还要安装好基础的环境信息。另外如果该hdfs已经废弃当前只是紧急访问下hdfs某个文件那么新增一个节点其实有点浪费资源。基于场景需要所以就想能不能将集群从高可用状态降为单namenode状态继续使用。

2、解决思路

hdfs ha主要基于zkfc实现zkfc主要有两个功能
1namenode的节点切换。
2编辑日志和镜像文件的定期整合。
如果从ha降为单节点。那么zkfc肯定不能继续使用其特有的两个功能也不再继续生效namenode节点切换在单节点时不需要但是编辑日志和镜像文件整合还是需要的。这个功能可以通过secondaryNameNode实现secondaryNameNode也不是必须的即只启动namenode和datanode也可以。

3、解决步骤

整个方案是基于我的虚拟机进行验证总共有三台虚拟机分别是node1、node2、node3其中node1和node3是原先namenode的安装点。后面准备只启动node1作为namenode节点并且在node2上启动secondaryNameNode进程。

3.1停止所有hdfs进程

   hadoop-daemon.sh stop datanode
   hadoop-daemon.sh stop zkfc
   hadoop-daemon.sh stop namenode
   hadoop-daemon.sh stop journalnode

3.2修改core-site.xml配置文件并分发到所有节点

指定hdfs地址为确切的节点

<property>
   
       <name>fs.defaultFS</name>
       
       <value>hdfs://node1:9000</value>
   </property>
   <property>

3.3修改hdfs-site.xml配置文件并分发到所有节点

删除或注释所有ha相关的配置

<configuration>

	<!-- 指定secondaryNameNode节点 -->
	<property>
		<name>dfs.namenode.secondary.http-address</name>
		<value>node2:50090</value>
	</property>

	<!-- 为namenode集群定义一个services name -->
	<!-- <property>
		<name>dfs.nameservices</name>
		<value>ns1</value>
	</property> -->

	<!-- nameservice 包含哪些namenode为各个namenode起名 -->
<!-- 	<property>
		<name>dfs.ha.namenodes.ns1</name>
		<value>nn1,nn2</value>
	</property> -->

	<!--  名为nn1的namenode 的rpc地址和端口号rpc用来和datanode通讯 -->
<!-- 	<property>
		<name>dfs.namenode.rpc-address.ns1.nn1</name>
		<value>node1:8020</value>
	</property> -->

	<!-- 名为nn2的namenode 的rpc地址和端口号rpc用来和datanode通讯  -->
<!-- 	<property>
		<name>dfs.namenode.rpc-address.ns1.nn2</name>
		<value>node3:8020</value>
	</property> -->

	<!--名为nn1的namenode 的http地址和端口号web客户端 -->
<!-- 	<property>
		<name>dfs.namenode.http-address.ns1.nn1</name>
		<value>node1:50070</value>
	</property> -->

	<!--名为nn2的namenode 的http地址和端口号web客户端 -->
<!-- 	<property>
		<name>dfs.namenode.http-address.ns1.nn2</name>
		<value>node3:50070</value>
	</property> -->

	<!--  namenode间用于共享编辑日志的journal节点列表 -->
<!-- 	<property>
		<name>dfs.namenode.shared.edits.dir</name>
		<value>qjournal://node1:8485;node2:8485;node3:8485/ns1</value>
	</property> -->

	<!--  journalnode 上用于存放edits日志的目录 -->
<!-- 	<property>
		<name>dfs.journalnode.edits.dir</name>
		<value>/opt/module/hadoop-2.10.1/data/tmp/dfs/jn</value>
	</property> -->

	<!--  客户端连接可用状态的NameNode所用的代理类 -->
<!-- 	<property>
		<name>dfs.client.failover.proxy.provider.ns1</name>
		<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
	</property> -->

	<!-- sshfence防止namenode脑裂当脑裂时会自动通过ssh到old-active将其杀掉将standby切换为active  -->
<!-- 	<property>
		<name>dfs.ha.fencing.methods</name>
		<value>sshfence</value>
	</property> -->

	<!--ssh密钥文件路径-->
<!-- 	<property>
		<name>dfs.ha.fencing.ssh.private-key-files</name>
		<value>/home/hadoop/.ssh/id_rsa</value>
	</property> -->

	<!-- 故障转移 -->
<!-- 	<property>
		<name>dfs.ha.automatic-failover.enabled</name>
		<value>true</value>
	</property> -->
</configuration>