如何“强制”crc文件出现时,写csv/Parquethdfs在Spark

omhiaaxx  于 2021-07-09  发布在  Spark
关注(0)|答案(1)|浏览(384)

我似乎有一个与互联网其他部分相反的问题——任何关于这个主题的搜索都会抛出成千上万个问题,即如何在使用spark编写时抑制crc文件。
在集群上使用spark并将内容写入hdfs时,我看不到任何 .crc 我通常在本地系统上看到的文件。有没有办法“强迫”他们出现?

wwtsj6pe

wwtsj6pe1#

您可以尝试下面的方法,看看.crc文件是否出现在hdfs文件夹中。

val customConf = spark.sparkContext.hadoopConfiguration
val fileSystemObject = org.apache.hadoop.fs.FileSystem.get(customConf)
fileSystemObject.setVerifyChecksum(true)

相关问题