为什么我们不在spark中使用hadoop可写数据类型呢？

5n0oy7gb 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(379)

在hadoop中，我们不使用java序列化，因为它庞大而缓慢。因此，hadoop提供了可写的，与java序列化相比，它是快速的。
在spark中，我们默认使用java序列化，如果我们不想使用java序列化，我们可以使用kryo序列化。我的问题是，为什么我们不能在spark中使用hadoop可写序列化？据我们所知，它是紧凑和快速。

Java hadoop apache-spark serialization Kryo

来源：https://stackoverflow.com/questions/60426859/why-dont-we-use-hadoop-writable-datatypes-in-spark

1条答案

按热度按时间

eyh26e7m1#

您可以通过sparkcontext的newapihadoop reader/writer方法使用输入和输出格式（可写类型）
https://spark.apache.org/docs/current/api/java/org/apache/spark/sparkcontext.html#newapihadooprdd（org.apache.hadoop.conf.configuration、%20java.lang.class、%20java.lang.class、%20java.lang.class）

赞(0）回复(0）举报 2021-05-27

我来回答

为什么我们不在spark中使用hadoop可写数据类型呢？

1条答案

相关问题

热门标签

最新问答