flink项目namenode启动失败：Journal storage directory /tmp/hadoop/dfs/journalnode/hadoopha not formatted

在测试flink的HA时，把某个节点（部署了jobmanager和namenode）的节点reboot了，然后启动时发现namenode没有起来，报错大概如下：org.apache.hadoop.hdfs.qjournal.protocol.JournalNotFormattedException: Journal Storage Directory /tmp/hadoop/dfs/journal

ydfind

1615人浏览 · 2021-04-06 18:54:05

ydfind · 2021-04-06 18:54:05 发布

在测试flink的HA时，把某个节点（部署了jobmanager和namenode）的节点reboot了，然后启动时发现namenode没有起来，报错大概如下：

org.apache.hadoop.hdfs.qjournal.protocol.JournalNotFormattedException: Journal Storage Directory /tmp/hadoop/dfs/journalnode/xxxx not formatted
	at org.apache.hadoop.hdfs.qjournal.server.Journal.checkFormatted(Journal.java:457)

原因：大概为journalnode保存的元数据和namenode的不一致，导致，3台机器中有2台报了这个错误。

解决：在nn1上启动journalnode，再执行hdfs namenode -initializeSharedEdits，使得journalnode与namenode保持一致。再重新启动namenode就没有问题了。

但又遇到flink的jobmanager启动不了，报错如下：

ERROR org.apache.flink.runtime.entrypint.XlusterEntrypoint   -Fatal error occurred in the cluster entrypoint.
	org.apache.flink.runtime.dispatcher.DispatcherException: Failed to take leadership with session id xxxxxxxxxxxxxxxxxxxxxxxxxx
	....
caused by: java.lang.RuntimeException: org.apache.flink.util.FlinkException: Could not retrieve submitted JobGraph from state handle under /xxxxx. This indicates that the retrieved state handle is broken. Try cleaning the state handle store.
..
caused by: java.io.FileNotFoundException: File does not exitst: /xxxx/submittedJobGraphe439cfc979db

节点reboot时，是有任务在执行的，而刚才journalnode的initializeSharedEdits导致某些文件丢失了，而jobmanager在读取这个提交的job时发生了报错，故在zookeeper删除flink任务的引用即可

./zkCli.sh -server zookeeper的host

set /flink/default/running_job_registry/xxxxx DONE
delete /flink/default/jobgraphs/xxxx

解决后，重新启动jobmanager、taskmanager没有问题了，再提交任务就可以了。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

自动化提示词生成工具盘点

腾讯云开发者社区

腾讯云架构师技术沙龙 · 长沙站圆满落幕，共话AI驱动下的技术架构与前沿应用

人工智能已成为推动技术创新与产业变革的重要引擎，开发者正身处一场前所未有的技术变革之中。通过本次腾讯云架构师技术沙龙，各位专家深入分享前沿技术洞察，探讨 AI 落地的应用路径与实践经验，为架构师的职业发展指明方向。腾讯云架构师长沙同盟和腾讯云架构师技术同盟长沙地区理事会正式成立。未来，腾讯云架构师长沙同盟将凝心聚力，打造属于本地架构师的学习与成长的家园，助力中国架构的蓬勃发展。未来已来，让我们携手

腾讯云开发者社区

通用Agent都快被骂废了，MiniMax突然搞了个能打的

效果也比我预计中要好很多，是一个比较标准的产品展示页，或者博客类型的页面，顶端栏划分了不同的信息，顶端和底部都保留了大量跟Hailuo 02的相关项，每一个页面都能交互，包含的信息量非常大，几乎完美的匹配了我的需求，你看到提示语中我说到的东西几乎都实现了。直接把生成的结果和我给的提示语对照一下，可以看到我给出的要求基本都做出来了，每一屏需要的景色背景图、数据表、地图、语音播放全都完成，编程考了，多