spark有文件了 spark-defaults.xml
用于指定什么设置,包括使用哪个压缩编解码器以及在哪个阶段(rdd、shuffle)。大多数设置可以在应用程序级别设置。
编辑时间: conf = SparkConf() conf.set("spark.hadoop.mapred.output.compress", "true") conf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.snappy")
我怎么用 spark-defaults.xml
告诉spark只使用特定的编解码器压缩spark输出?
方案1 spark.hadoop.mapred.output.compress true spark.hadoop.mapred.output.compression.codec snappy
方案2: spark.mapreduce.output.fileoutputformat.compress true spark.mapreduce.output.fileoutputformat.compress.codec snappy
方案3: mapreduce.output.fileoutputformat.compress true mapreduce.output.fileoutputformat.compress.codec snappy
有没有人有正确的方法来设置这个(从这些选项中的任何一个或类似的东西)?我正在运行spark 1.6.1。
2条答案
按热度按时间f5emj3cl1#
Spark压缩在以下链接中解释:http://spark.apache.org/docs/latest/configuration.html#compression-和序列化
据此,可以将lz4、lzf或snappy压缩配置为
或
在conf/spark-defaults.conf配置文件中。此文件用于指定将在工作节点上运行的作业及其执行器的默认配置。
44u64gxh2#
你应该把这个加到你的
spark-defaults.xml
:这与将这些添加到
spark-submit
命令: