我一直在工作 Serialization 以及 Deserialization 过程 Java 并试图理解这一点 Hadoop 以及 Spark 也。有人能告诉我 Hadoop , Spark 以及 Java .
Serialization
Deserialization
Java
Hadoop
Spark
hgqdbh6s1#
hadoop有自己的序列化接口(可写),它的设计目的是尽可能减少产生的垃圾。当mapper或reducer运行时,实现它的对象是可变的和可重用的,从而进一步降低了垃圾量。另外,适当设计的可写内容可以由不同版本的代码编写,解决了可序列化的固有问题。spark没有自己的序列化,默认情况下使用本机java序列化。它的性能不是很好,而且可以使用kryo制造spark,这有时会使性能提高10倍。但是,在使用kryo时,在运行作业之前,应该在sparkconf中注册所有自定义类。
1条答案
按热度按时间hgqdbh6s1#
hadoop有自己的序列化接口(可写),它的设计目的是尽可能减少产生的垃圾。当mapper或reducer运行时,实现它的对象是可变的和可重用的,从而进一步降低了垃圾量。另外,适当设计的可写内容可以由不同版本的代码编写,解决了可序列化的固有问题。
spark没有自己的序列化,默认情况下使用本机java序列化。它的性能不是很好,而且可以使用kryo制造spark,这有时会使性能提高10倍。但是,在使用kryo时,在运行作业之前,应该在sparkconf中注册所有自定义类。