hadoop关闭调试模式_hadoop本地调试方法

weixin_39850167

207人浏览 · 2020-12-21 22:39:53

weixin_39850167 · 2020-12-21 22:39:53 发布

Mapreduce 是Hadoop上一个进行分布式数据运算和统计的框架，但是每次运行程序的时候都需要将程序打包并上传的集群环境中运行，这就会让程序的调试变得十分不方便。所以在这里写下这篇博客和大家交流学习如何在本地调试Mapreduce程序。

本地是windows系统，文件路径也是本地

首先需要将编译后的windos

放入解压后的hadoop解压包的bin目录下，还有hadoop,dll文件不同版本的windows对应的winutils.exe是不同的。具体编译方法，网上可以找到相关教程

这里就不详说了。当然网上也有好心人编译好的，来后就能用。

然后将hadoop的HADOOP_HOME配置到环境变量中去。在PATH中配置PATH=“%HADOOP—HOME\bin%”；

可能有些同学运行程序后仍会包报错NullPointException。需要将bin目录下的hadoop.dll考到C盘的system32下一份。

再次运行，非常好。

在本地运行需要配置两个参数

conf.set("mapred.job.tracker", "local");

conf.set("fs.default.name", "local");

其实这两个参数也可以不用配置，因为系统默认的就是本地

packageworldcount;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public classWorldCountDrive {public static void main(String[] args) throwsIOException, ClassNotFoundException, InterruptedException {

Configuration conf= newConfiguration();/*conf.set("mapred.job.tracker", "local");

conf.set("fs.default.name", "local");*/Job job=Job.getInstance(conf);

job.setJarByClass(WorldCountDrive.class);

job.setMapperClass(WorldcountMap.class);

job.setReducerClass(WorldCountReduce.class);

job.setMapOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

FileInputFormat.setInputPaths(job,new Path("C:/README.txt"));

FileOutputFormat.setOutputPath(job,new Path("C:/output"));boolean res = job.waitForCompletion(true);

System.exit(res?0:1);

}

这样我们写的mapreduce程序就可以在本地打断点进行调试了

log4j的配置

hadoop.root.logger=DEBUG, console

log4j.rootLogger=DEBUG, console

log4j.appender.console=org.apache.log4j.ConsoleAppender

log4j.appender.console.target=System.out

log4j.appender.console.layout=org.apache.log4j.PatternLayout

log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{2}: %m%n

本地系统运行，文件系统用HDFS

conf.set("mapred.job.tracker", "local");

conf.set("fs.defaultFS", "hdfs://Hadoop:9000");

………………

FileInputFormat.setInputPaths(job,new Path("/Users/admin/Telephone_Summary")); //hdfs的文件路径

FileOutputFormat.setOutputPath(job, new Path("/Users/admin/mapreduceTestOutput"));//hdfs的文件路径

集群运行模式

(1)将mapreduce程序提交给yarn集群resourcemanager，分发到很多的节点上并发执行

(2)处理的数据和输出结果应该位于hdfs文件系统

(3)提交集群的实现步骤：

A、将程序打成JAR包，然后在集群的任意一个节点上用hadoop命令启动

$ hadoop jar wordcount.jar cn.itcast.bigdata.mrsimple.WordCountDriver inputpath outputpath

B、直接在linux的eclipse中运行main方法

(项目中要带参数：mapreduce.framework.name=yarn以及yarn的两个基本配置)

C、如果要在windows的eclipse中提交job给集群，则要修改YarnRunner类

mapreduce程序在集群中运行时的大体流程：

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git