在hadoop中,我们不使用java序列化,因为它庞大而缓慢。因此,hadoop提供了可写的,与java序列化相比,它是快速的。在spark中,我们默认使用java序列化,如果我们不想使用java序列化,我们可以使用kryo序列化。我的问题是,为什么我们不能在spark中使用hadoop可写序列化?据我们所知,它是紧凑和快速。
eyh26e7m1#
您可以通过sparkcontext的newapihadoop reader/writer方法使用输入和输出格式(可写类型)https://spark.apache.org/docs/current/api/java/org/apache/spark/sparkcontext.html#newapihadooprdd(org.apache.hadoop.conf.configuration、%20java.lang.class、%20java.lang.class、%20java.lang.class)
1条答案
按热度按时间eyh26e7m1#
您可以通过sparkcontext的newapihadoop reader/writer方法使用输入和输出格式(可写类型)
https://spark.apache.org/docs/current/api/java/org/apache/spark/sparkcontext.html#newapihadooprdd(org.apache.hadoop.conf.configuration、%20java.lang.class、%20java.lang.class、%20java.lang.class)