Hadoop基础ProtocolBuffers串行化与反串行化

作者：妩媚天天想我 | 来源：互联网 | 2023-07-11 13:02

　　　　　　　　　　　　　　　　　　　　Hadoop基础-Protocol Buffers串行化与反串行化

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

　　我们之前学习过很多种序列化文件格式，比如python中的pickle序列化方式（https://www.cnblogs.com/yinzhengjie/p/8531308.html），golang的Gob序列化方式（https://www.cnblogs.com/yinzhengjie/p/7807051.html），hadoop的SequenceFile序列化文件（https://www.cnblogs.com/yinzhengjie/p/9114301.html），Java内置的ObjectOutputStream序列化方式（https://www.cnblogs.com/yinzhengjie/p/8988003.html）等等。

　　当然，除了语言自己内置的序列化方式外，还有一些手动二进制编码的序列化文件，以及人性化可读格式的序列化文件，比如XMl，JSON，DOM，SAX，STAX，JAXB，JAXP等等，不过这些序列化方式都不是今天的主角，我今天要介绍的是Google公司在2008年就开源的一种序列化方式，即Protocol Buffers序列化。

一.Protocol Buffers 简介

1>.什么是 Protocol Buffers

　　第一:A description language(一种描述语言);

　　第二：A complier（它是一个编译器）;

　　第三：A library（它是一种库）;

2>.Protocol Buffers 优点

　　第一：易于使用，高效的二进制编码；

　　第二：它是由谷歌公司研发的；

　　第三：简单高效的串行化技术，在2008公开该技术；

3>.支持跨语言

　　官方支持：Java, C++, and Python等等

　　非官方支持：C, C#, Erlang, Perl, PHP, Ruby等等

二.Protocol Buffers 代码生成

1>.创建emp.proto自描述文件(非java文件,具体内容如下)

package tutorial; 
option java_package = "tutorialspoint.com"; 
option java_outer_classname = "Emp2"; 
message Emp { 
    required int32 id = 1; 
    required string name = 2; 
    required int32 age = 3; 
    required int32 salary = 4; 
    required string address = 5; 
}

2>.将emp.proto（下载地址：链接：https://pan.baidu.com/s/1crYmFwI68kUnzwJgoyOdpw 密码：bh63）和protobuf\src\protoc.exe放在同一个文件夹

3>.编译emp.proto(protoc --java_out=. emp.proto)

4>.将"D:\10.Java\IDE\yhinzhengjieData\ProtocolBuffers\tutorialspoint\com"(这是我本地目录)下的Emp2.java放置在idea中，包名“tutorialspoint.com”

Hadoop基础-Protocol Buffers串行化与反串行化

三.编写代码

1>.编写串行化代码

 1 /*
 2 @author :yinzhengjie
 3 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/
 4 EMAIL:y1053419035@qq.com
 5 */
 6 package cn.org.yinzhengjie.protocolBuffers;
 7 
 8 import tutorialspoint.com.Emp2;
 9 
10 import java.io.File;
11 import java.io.FileOutputStream;
12 
13 public class MyProtocolBuffers {
14 
15     private static  final File protocolBuffers = new File("D:\\10.Java\\IDE\\yhinzhengjieData\\ProtocolBuffers\\emp.protocolBuffers");
16 
17 
18     public static void main(String[] args) throws Exception {
19         protocolBuffersSerial();
20     }
21     /**
22      * 定义序列化方式
23      */
24     public static void protocolBuffersSerial() throws Exception {
25         long start = System.currentTimeMillis();
26         FileOutputStream fos = new FileOutputStream(protocolBuffers);
27         //注意，在序列化一个对象的时候，都是打点的方式设置的哟！在设置完毕后需要以".build"结束！
28         Emp2.Emp emp = Emp2.Emp.newBuilder().
29                 setId(1).
30                 setName("尹正杰").
31                 setAge(18).
32                 setSalary(66666666).
33                 setAddress("北京").build();
34         //我们循环写入数据
35         for (int i = 0; i <10000000; i++) {
36             emp.writeTo(fos);
37         }
38         fos.close();
39         System.out.printf("这是protocol Buffers序列化方式: 生成文件大小:[%d]，用时:[%d]\n",protocolBuffers.length(),System.currentTimeMillis() - start);
40     }
41 }
42 
43 /*
44 以上代码执行结果如下：
45 这是protocol Buffers序列化方式: 生成文件大小:[280000000]，用时:[10960]
46  */

　　执行以上代码后，在本地目录会生成一个文件如下：

2>.编写反串行化代码

 1 /*
 2 @author :yinzhengjie
 3 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/
 4 EMAIL:y1053419035@qq.com
 5 */
 6 package cn.org.yinzhengjie.protocolBuffers;
 7 
 8 import tutorialspoint.com.Emp2;
 9 
10 import java.io.File;
11 import java.io.FileInputStream;
12 import java.io.FileOutputStream;
13 
14 public class MyProtocolBuffers {
15 
16     private static  final File protocolBuffers = new File("D:\\BigData\\JavaSE\\yinzhengjieData\\ProtocolBuffers\\emp.protocolBuffers");
17 
18 
19     public static void main(String[] args) throws Exception {
20         protocolBuffersSerial();
21         protocolBuffersDeserial();
22     }
23     /**
24      * 定义序列化方式
25      */
26     public static void protocolBuffersSerial() throws Exception {
27         long start = System.currentTimeMillis();
28         FileOutputStream fos = new FileOutputStream(protocolBuffers);
29         //注意，在序列化一个对象的时候，都是打点的方式设置的哟！在设置完毕后需要以".build"结束！
30         Emp2.Emp emp = Emp2.Emp.newBuilder().
31                 setId(1).
32                 setName("尹正杰").
33                 setAge(18).
34                 setSalary(66666666).
35                 setAddress("北京").build();
36         //我们循环写入数据
37         for (int i = 0; i <2000000; i++) {
38             emp.writeTo(fos);
39         }
40         fos.close();
41         System.out.printf("这是protocol Buffers序列化方式: 生成文件大小:[%d]，用时:[%d]\n",protocolBuffers.length(),System.currentTimeMillis() - start);
42     }
43 
44     /**
45      * 定义反序列化方式
46      */
47     public static void protocolBuffersDeserial() throws Exception {
48         long start = System.currentTimeMillis();
49         FileInputStream fis = new FileInputStream(protocolBuffers);
50 
51         Emp2.Emp emp = Emp2.Emp.parseFrom(fis);
52 
53         for (int i = 0; i <2000000; i++) {
54             emp.getId();
55             emp.getName();
56             emp.getAge();
57             emp.getSalary();
58             emp.getAddress();
59         }
60         System.out.printf("这是protocol Buffers反序列化方式: 生成文件大小:[%d]，用时:[%d]\n",protocolBuffers.length(),System.currentTimeMillis() - start);
61     }
62 
63 }

推荐阅读

int
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
int
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
int
普通树(每个节点可以有任意数量的子节点)级序遍历

普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]

蜡笔小新 2024-11-14 18:53:26
int
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
int
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
int
c语言拓展数学函数库,c语言数学库

C语言中全部可用的数学函数有哪些？2．longlabs(longn);求长整型数的绝对值。3．doublefabs(doublex);求实数的绝对值。4．doublefloor(d ... [详细]

蜡笔小新 2024-11-13 14:46:34
int
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
js
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
int
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
int
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
js
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
request
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
int
C#中数值结果的格式化展示方法与技巧

在C#编程中，数值结果的格式化展示是提高代码可读性和用户体验的重要手段。本文探讨了多种格式化方法和技巧，如使用格式说明符、自定义格式字符串等，以实现对数值结果的精确控制。通过实例演示，展示了如何灵活运用这些技术来满足不同的展示需求。 ... [详细]

蜡笔小新 2024-11-11 09:27:57
request
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
request
在List和Set集合中存储Object类型的数据元素

在List和Set集合中存储Object类型的数据元素 ... [详细]

蜡笔小新 2024-11-09 18:55:32

妩媚天天想我

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章