基于 socket 进行对象传输
socket 通信的代码的例子
user.java
public class User {private String name;public String getName() {return name;}public void setName(String name) {this.name = name;}
}
SocketServer.java 服务端
public class SocketServer {public static void main(String[] args) throws IOException {ServerSocket serverSocket = null;BufferedReader in = null;try {serverSocket = new ServerSocket(8081);Socket socket = serverSocket.accept();ObjectInputStream objectInputStream = new ObjectInputStream(socket.getInputStream());User user = (User) objectInputStream.readObject();System.out.println(user);} catch (Exception e) {e.printStackTrace();} finally {if (in != null) {try {in.close();} catch (IOException e) {e.printStackTrace();}}if (serverSocket != null) {serverSocket.close();}}}
}
SocketClient.java 客户端
public class SocketClient {public static void main(String[] args) {Socket socket = null;ObjectOutputStream out = null;try {socket = new Socket("127.0.0.1", 8081);User user = new User();out = new ObjectOutputStream(socket.getOutputStream());out.writeObject(user);} catch (IOException e) {e.printStackTrace();} finally {if (out != null) {try {out.close();} catch (IOException e) {e.printStackTrace();}}if (socket != null) {try {socket.close();} catch (IOException e) {e.printStackTrace();}}}}
}
运行结果
这段代码运行以后,能够实现 Java 对象的正常传输吗? 很显然,会报错
如何解决报错的问题呢?
对 User 这个对象实现一个 Serializable 接口,再次运行就可以看到对象能够正常传输了
public class User implements Serializable {private String name;public String getName() {return name;}public void setName(String name) {this.name = name;}
}
序列化的意义
我们发现对 User 这个类增加一个 Serializable,就可以解决 Java 对象的网络传输问题。
Java 平台允许我们在内存中创建可复用的 Java 对象,但一般情况下,只有当 JVM 处于运行时,这些对象才可能存在,即,这些对象的生命周期不会比 JVM 的生命周期更长。但在现实应用中,就可能要求在 JVM 停止运行之后能够保存(持久化)指定的对象,并在将来重新读取被保存的对象。Java 对象序列化就能够帮助我们实现该功能
简单来说
序列化是把对象的状态信息转化为可存储或传输的形式过程,也就是把对象转化为字节序列的过程称为对象的序列化
反序列化是序列化的逆向过程,把字节数组反序列化为对象,把字节序列恢复为对象的过程成为对象的反序列化
简单认识一下 Java 原生序列化
前面的代码中演示了,如何通过 JDK 提供了 Java 对象的序列化方式实现对象序列化传输,主 要通过输出流 java.io.ObjectOutputStream 和对象输入流 java.io.ObjectInputStream 来实现。
需要注意的是,被序列化的对象需要实现 java.io.Serializable 接口
serialVersionUID 的作用
身份证的作用,唯一标识一个类
在 IDEA 中通过如下设置可以生成 serializeid
字面意思上是序列化的版本号,凡是实现 Serializable 接口的类都有一个表示序列化版本标识符的静态变量
演示步骤
结论
Java 的序列化机制是通过判断类的 serialVersionUID 来验证版本一致性的。在进行反序列化时,JVM 会把传来的字节流中的 serialVersionUID 与本地相应实体类的 serialVersionUID 进行比较,如果相同就认为是一致的,可以进行反序列化,否则就会出现序列化版本不一致的异常,即是 InvalidCastException。
从结果可以看出,文件流中的 class 和 classpath 中的 class,也就是修改过后的 class,不兼容了,处于安全机制考虑,程序抛出了错误,并且拒绝载入。从错误结果来看,如果没有为指定的 class 配置 serialVersionUID,那么 java 编译器会自动给这个 class 进行一个摘要算法, 类似于指纹算法,只要这个文件有任何改动,得到的 UID 就会截然不同的,可以保证在这么多类中,这个编号是唯一的。所以,由于没有显指定 serialVersionUID,编译器又为我们生成了一个 UID,当然和前面保存在文件中的那个不会一样了,于是就出现了 2 个序列化版本号不一致的错误。因此,只要我们自己指定了 serialVersionUID,就可以在序列化后,去添加一个字段,或者方法,而不会影响到后期的还原,还原后的对象照样可以使用。
tips: serialVersionUID 有两种显示的生成方式:
- 一是默认的 1L,比如:private static final long serialVersionUID = 1L;
- 二是根据类名、接口名、成员方法及属性等来生成一个 64 位的哈希字段。当实现 java.io.Serializable 接口的类没有显式地定义一个 serialVersionUID 变量时候,Java 序列化机制会根据编译的 Class 自动生成一个 serialVersionUID 作序列化版本比较用,这种情况下,如果 Class 文件(类名,方法明等)没有发生变化(增加空格,换行,增加注释等等),就算再编译多次,serialVersionUID 也不会变化的。
Transient 关键字的作用是控制变量的序列化,在变量声明前加上该关键字,可以阻止该变量被序列化到文件中,在被反序列化后,transient 变量的值被设为初始值,如 int 型的是 0,对象型的是 null。
绕开 transient 机制的办法(了解)
略:
初步了解了 Java 序列化的知识以后,我们又得回到分布式架构中,了解序列化的发展过程
序列化的发展
随着分布式架构、微服务架构的普及。服务与服务之间的通信成了最基本的需求。这个时候, 我们不仅需要考虑通信的性能,也需要考虑到语言多元化问题 所以,对于序列化来说,如何去提升序列化性能以及解决跨语言问题,就成了一个重点考虑的问题。
由于 Java 本身提供的序列化机制存在两个问题
以至于在后来的很长一段时间,基于 XML 格式编码的对象序列化机制成为了主流,一方面解 决了多语言兼容问题,另一方面比二进制的序列化方式更容易理解。以至于基于 XML 的 SOAP 协议及对应的 WebService 框架在很长一段时间内成为各个主流开发语言的必备的技术。 再到后来,基于 JSON 的简单文本格式编码的 HTTP REST 接口又基本上取代了复杂的 Web Service 接口,成为分布式架构中远程通信的首要选择。但是 JSON 序列化存储占用的空间大、性能低等问题,同时移动客户端应用需要更高效的传输数据来提升用户体验。在这种情况下与语言无关并且高效的二进制编码协议就成为了大家追求的热点技术之一。首先诞生的一个开源的二进制序列化框架-MessagePack。它比 google 的 Protocol Buffers 出现得还要早。
XML 序列化框架介绍
XML 序列化的好处在于可读性好,方便阅读和调试。但是序列化以后的字节码文件比较大, 而且效率不高,适用于对性能不高,并且 QPS 较低的企业级内部系统之间的数据交换的场景, 同时 XML 又具有语言无关性,所以还可以用于异构系统之间的数据交换和协议。比如我们熟知的 Webservice,就是采用 XML 格式对数据进行序列化的。XML 序列化/反序列化的实现方式有很多,熟知的方式有 XStream 和 Java 自带的 XML 序列化和反序列化两种
JSON 序列化框架
JSON(Javascript Object Notation)是一种轻量级的数据交换格式,相对于 XML 来说,JSON 的字节流更小,而且可读性也非常好。现在 JSON 数据格式在企业运用是最普遍的
JSON 序列化常用的开源工具有很多
这几种 json 序列化工具中,Jackson 与 fastjson 要比 GSON 的性能要好,但是 Jackson、 GSON 的稳定性要比 Fastjson 好。而 fastjson 的优势在于提供的 api 非常容易使用
Hessian 序列化框架
Hessian 是一个支持跨语言传输的二进制序列化协议,相对于 Java 默认的序列化机制来说, Hessian 具有更好的性能和易用性,而且支持多种不同的语言。实际上 Dubbo 采用的就是 Hessian 序列化来实现,只不过 Dubbo 对 Hessian 进行了重构, 性能更高
Avro 序列化
Avro 是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro 提供的机制使动 态语言可以方便地处理 Avro 数据。
kyro 序列化框架
Kryo 是一种非常成熟的序列化实现,已经在 Hive、Storm中使用得比较广泛,不过它不能跨语言. 目前 dubbo 已经在 2.6 版本支持 kyro 的序列化机制。它的性能要优于之前的 hessian2
Protobuf 序列化框架
Protobuf 是 Google 的一种数据交换格式,它独立于语言、独立于平台。Google 提供了多种语言来实现,比如 Java、C、Go、Python,每一种实现都包含了相应语言的编译器和库文件, Protobuf 是一个纯粹的表示层协议,可以和各种传输层协议一起使用。
Protobuf 使用比较广泛,主要是空间开销小(比java序列化方式占用空间小10倍)和性能比较好,非常适合用于公司内部对性能要求高的 RPC 调用。 另外由于解析性能比较高,序列化以后数据量相对较少,所以也可以应用在对象的持久化场景中
但是要使用 Protobuf 会相对来说麻烦些,因为他有自己的语法,有自己的编译器,如果需要用到的话必须要去投入成本在这个技术的学习中。
protobuf 有个缺点就是要传输的每一个类的结构都要生成对应的 proto 文件,如果某个类发生修改,还得重新生成该类对应的 proto 文件。
那么接下来着重分析一下 protobuf 的序列化原理,前面说过它的优势是空间开销小,性能也相对较好。它里面用到的一些算法还是值得我们去学习的
protobuf 的基本应用,使用 protobuf 开发的一般步骤是
Protobuf 案例演示
下载 protobuf 工具 https://github.com/google/protobuf/releases
编写 proto 文件。找到 protoc-3.5.1-win32.zip
syntax="proto2"; //string / bytes / bool / int32(4 个字节) /int64/float/double enum 枚举类 message 自定义类
package com.gupaoedu.serial;
option java_package = "com.gupaoedu.serial";
option java_outer_classname="UserProtos";
message User {
required string name=1; required int32 age=2;
}/*
修饰符
required 表示必填字段
optional 表示可选字段
repeated 可重复,表示集合 1,2,3,4 需要在当前范围内是唯一的
表示顺序
*/
生成实体类
【.\protoc.exe --java_out=./ ./user.proto】
实现序列化
<dependency><groupId>com.google.protobuf</groupId><artifactId>protobuf-java</artifactId><version>3.7.0</version>
</dependency>
UserProtos.User user&#61;UserProtos.User.newBuilder().setName("Mic") .setAge(18).build();
ByteString bytes&#61;user.toByteString();
System.out.println(bytes);
UserProtos.User nUser&#61;UserProtos.User.parseFrom(bytes); System.out.println(nUser);
protobuf 序列化原理
我们可以把序列化以后的数据打印出来看看结果
public static void main(String[] args) {UserProtos.User user &#61; UserProtos.User.newBuilder().setAge(300).setName("Mic").build();byte[] bytes &#61; user.toByteArray();for (byte bt : bytes) {System.out.print(bt &#43; " ");}
}
输出结果
10 3 77 105 99 16 -84 2
我们可以看到&#xff0c;序列化出来的数字基本看不懂&#xff0c;但是序列化以后的数据确实很小。
正常来说&#xff0c;要达到最小的序列化结果&#xff0c;一定会用到压缩的技术&#xff0c;而 protobuf 里面用到了两种压缩算法&#xff0c;一种是 varint&#xff0c;另一种是 zigzag
具体做法是基于一定的规则&#xff0c;对字节做一些处理。这里不细研究了。
总结
Protocol Buffer 的性能好&#xff0c;主要体现在序列化后的数据体积小 & 序列化速度快&#xff0c;最终使得传输效率高&#xff0c;其原因如下:
序列化速度快的原因:
a. 编码 / 解码 方式简单(只需要简单的数学运算 &#61; 位移等等)
b. 采用 Protocol Buffer 自身的框架代码和编译器共同完成序列化后的数据量体积小(即数据压缩效果好)的原因:
a. 采用了独特的编码方式&#xff0c;如 Varint、Zigzag 编码方式等等
b. 采用 T - L - V 的数据存储方式:减少了分隔符的使用 & 数据存储得紧凑
技术层面
选型建议