在spark中使用哪个设置来指定“output”的压缩?

dgenwo3n  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(653)

spark有文件了 spark-defaults.xml 用于指定什么设置,包括使用哪个压缩编解码器以及在哪个阶段(rdd、shuffle)。大多数设置可以在应用程序级别设置。

编辑时间: conf = SparkConf() conf.set("spark.hadoop.mapred.output.compress", "true") conf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.snappy") 我怎么用 spark-defaults.xml 告诉spark只使用特定的编解码器压缩spark输出?

方案1 spark.hadoop.mapred.output.compress true spark.hadoop.mapred.output.compression.codec snappy 方案2: spark.mapreduce.output.fileoutputformat.compress true spark.mapreduce.output.fileoutputformat.compress.codec snappy 方案3: mapreduce.output.fileoutputformat.compress true mapreduce.output.fileoutputformat.compress.codec snappy 有没有人有正确的方法来设置这个(从这些选项中的任何一个或类似的东西)?我正在运行spark 1.6.1。

f5emj3cl

f5emj3cl1#

Spark压缩在以下链接中解释:http://spark.apache.org/docs/latest/configuration.html#compression-和序列化
据此,可以将lz4、lzf或snappy压缩配置为

spark.io.compression.codec     lz4

spark.io.compression.codec     org.apache.spark.io.LZ4CompressionCodec

在conf/spark-defaults.conf配置文件中。此文件用于指定将在工作节点上运行的作业及其执行器的默认配置。

44u64gxh

44u64gxh2#

你应该把这个加到你的 spark-defaults.xml :

<property>
    <name>spark.hadoop.mapred.output.compress</name>
    <value>true</value>
</property>
<property>
    <name>spark.hadoop.mapred.output.compression.codec</name>
    <value>snappy</value>
</property>

这与将这些添加到 spark-submit 命令:

--conf spark.hadoop.mapred.output.compress=true
--conf spark.hadoop.mapred.output.compression.codec=snappy

相关问题