当前位置: 开发笔记 > 编程语言 > 正文

hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

作者：手机用户2502896567 | 来源：互联网 | 2023-10-17 09:49

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代

对于开源的东东&＃xff0c;尤其是刚出来不久&＃xff0c;我认为最好的学习方式就是能够看源代码和doc&＃xff0c;測试它的样例

为了方便查看源代码&＃xff0c;关联导入源代码的项目

先前的项目导入源代码是关联了源代码文件

block数据块&＃xff0c;在配置文件hdfs-default.xml中能够查看到,记住要改动不是在这里

block文件存储块是最主要的单位

查看block存放位置&＃xff0c;配置文件里查看

假设文件大于64M会占两个块&＃xff0c;meta文件是校验文件&＃xff0c;第二个文件大于64M&＃xff0c;删除文件后&＃xff0c;则相应block不在

datanode存放文件&＃xff0c;一个文件能够存放在不同机器上datanode

mapreduce本身有默认的类&＃xff0c;当什么都不写的时候&＃xff0c;原样输出

package com.kane.mr.minidefault;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class TestDefault {
public static void main(String[] args) throws Exception {
Configuration conf &＃61; new Configuration();
//GenericOptionsParser辅助工具类
//String[] otherArgs &＃61; new GenericOptionsParser(conf, args).getRemainingArgs();
String[] otherArgs &＃61; {"hdfs://centos:9000/kane/mini.txt","hdfs://centos:9000/kane/output"};
if (otherArgs.length !&＃61; 2) {
System.err.println("Usage: wordcount ");
System.exit(2);
}
Job job &＃61; new Job(conf, "word count");
job.setJarByClass(TestDefault.class);
//中间的内容省略就採用默认的类操作,应该是原样输出

FileInputFormat.addInputPath(job, new Path(otherArgs[0]));//输入參数&＃xff0c;相应hadoop jar 相应类执行时在后面加的第一个參数
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));//输出參数
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}

然后到处该类为jar包&＃xff0c;放到hadoop文件下&＃xff0c;执行

接下来自己创建须要mr执行的源文件&＃xff0c;并导入hdfs中

当我们执行hadoop命令执行时可能出异常&＃xff0c;由于你编写代码的jdk可能和hadoop用到的JVM不匹配

解决java.lang.UnsupportedClassVersionError问题

Jbuilder2006自带了1.5的JDK,但假设你还想继续用JDK1.42&＃xff0c;假设仅仅是在Jbuilder2006的tool->configure->JDKs中加入一个JDK1.42或更低版本号&＃xff0c;那么即使你仅仅写一个最简单的HelloWorld程序&＃xff0c;Jbuilder2006都会给你报出长长一串错误&＃xff0c;编写的代码在Jbuilder2005中也无法执行。JBuilder2006在执行编译project时&＃xff0c;会针对特定版本号的VM进行编译&＃xff0c;默认的是Java 2 SDK, v 5.0 And Late&＃xff0c;因此&＃xff0c;假设project用的是1.5下面的JDK&＃xff0c;碰到都是java.lang.UnsupportedClassVersionError这个错误。

解决的办法事实上非常easy&＃xff0c;仅仅要更改这个选项即可了。详细过程例如以下&＃xff1a;
----------------------------------------------------------
1、右键点击project文件&＃xff0c;选择属性(properties),
2、在属性窗体中选择 Build-->Java,在右边的选项中有四个下拉框&＃xff0c;就能够看到编译选项了&＃xff0c;
3、当中Compiler和Debug Option能够不用管&＃xff0c;仅仅在Languege features和Target VM中选择对应的JDK版本号就能够了&＃xff0c;然后确定&＃xff0c;一切OK。
附件中是配置的图片。
-----------------------------------------------------------
假设在Target VM中选择了All Java SDKs&＃xff0c;那么你的class文件在使用JDK1.1的VM上都能够执行&＃xff08;Jbuilder2006帮助中是这么说的&＃xff0c;预计没几个人的机子上还在用JDK1.1吧 :-&＃xff09;

Eclipse3.1相同会出现相同的问题&＃xff0c;这时候仅仅须要把项目用的JDK与你安装的JDK搞成版本号一样就攻克了&＃xff0e;

步骤&＃xff1a;右击你的项目&＃xff0d;&＃xff0d;&＃xff1e;属性&＃xff0d;&＃xff0d;&＃xff1e;Java Compiler&＃xff0c;设置合适的版本号&＃xff01;&＃xff01;

默认的mr程序原样输出

測试wordcount

package com.kane.mr;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class MapperClass extends Mapper{
public Text keyText&＃61;new Text("key");
public IntWritable intValue&＃61;new IntWritable(1);
&＃64;Override
protected void map(Object key, Text value,
Context context)
throws IOException, InterruptedException {
//获取输入的值
String str&＃61;value.toString();
//用什么分隔键值&＃xff0c;默认空格或\t 或\n
StringTokenizer sTokenizer&＃61;new StringTokenizer(str);
//循环输出&＃xff0c;假如是My name is kane 则分四次输出四个单词
while (sTokenizer.hasMoreElements()) {
Object object &＃61; (Object) sTokenizer.nextElement();
//这里每一个单词能够看做一个key
keyText.set(str);
context.write(keyText, intValue);//匹配一个就加value比如&＃xff08;“My”&＃xff0c;1&＃xff09;
}
}

}

package com.kane.mr;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
//map传来的键值就是text 和 intwritable
public class ReducerClass extends Reducer{
public IntWritable intValue&＃61; new IntWritable(0);

&＃64;Override
protected void reduce(Text key, Iterable values,//假如name出现两次&＃xff0c;这里得到的values是 name [1,1]
Context context)
throws IOException, InterruptedException {
int sum&＃61;0;
while (values.iterator().hasNext()) {
sum&＃43;&＃61;values.iterator().next().get();

}
//这里值用intwritable输出是由于非常多情况下一个mapreduce的输出是下一个mapreduce的输入
intValue.set(sum);
context.write(key, intValue);
}

}

package com.kane.mr;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCounter {
public static void main(String[] args) throws Exception {
Configuration conf &＃61; new Configuration();
String[] otherArgs &＃61; new GenericOptionsParser(conf, args).getRemainingArgs();
if (otherArgs.length !&＃61; 2) {
System.err.println("Usage: wordcount ");
System.exit(2);
}
Job job &＃61; new Job(conf, "word count");
job.setJarByClass(WordCounter.class);
job.setMapperClass(MapperClass.class);
//job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(ReducerClass.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));//输入參数&＃xff0c;相应hadoop jar 相应类执行时在后面加的第一个參数
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));//输出參数
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}

推荐阅读

main
MapReduce原理是怎么剖析的

这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1 ... [详细]

蜡笔小新 2024-12-16 18:23:06
import
android知识杂记（三）

andr ... [详细]

蜡笔小新 2024-12-26 13:29:32
import
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
default
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
import
Alluxio 1.5.0 版本发布：增强功能与优化

Alluxio 1.5.0 开源版本引入了多项新特性和改进，旨在提升数据访问速度和系统互操作性。 ... [详细]

蜡笔小新 2024-12-10 10:47:59
io
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
runtime
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
default
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
import
使用Objective-C和dispatch库实现并发素数计算

本文介绍如何使用Objective-C结合dispatch库进行并发编程，以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码，展示dispatch库的强大功能。 ... [详细]

蜡笔小新 2024-12-28 08:44:35
string
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
main
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
import
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
import
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
default
Hive 创建表语法详解

本文详细介绍了在Hive中创建表的基本语法，包括临时表、外部表的创建方法，以及如何设置表的各种属性和约束条件。 ... [详细]

蜡笔小新 2024-12-04 14:16:49
io
大数据SQL优化：全面解析数据倾斜解决方案

本文深入探讨了大数据SQL优化中的数据倾斜问题，提供了多种解决策略和实际案例，旨在帮助读者理解和应对这一常见挑战。 ... [详细]

蜡笔小新 2024-11-29 13:37:00

手机用户2502896567

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章