为什么我们不在spark中使用hadoop可写数据类型呢?

5n0oy7gb  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(386)

在hadoop中,我们不使用java序列化,因为它庞大而缓慢。因此,hadoop提供了可写的,与java序列化相比,它是快速的。
在spark中,我们默认使用java序列化,如果我们不想使用java序列化,我们可以使用kryo序列化。我的问题是,为什么我们不能在spark中使用hadoop可写序列化?据我们所知,它是紧凑和快速。

eyh26e7m

eyh26e7m1#

您可以通过sparkcontext的newapihadoop reader/writer方法使用输入和输出格式(可写类型)
https://spark.apache.org/docs/current/api/java/org/apache/spark/sparkcontext.html#newapihadooprdd(org.apache.hadoop.conf.configuration、%20java.lang.class、%20java.lang.class、%20java.lang.class)

相关问题