希望你们都好。我正在使用结构化流媒体从目录中读取文件
schema = StructType([
StructField("RowNo", StringType()),
StructField("InvoiceNo", StringType()),
StructField("StockCode", StringType()),
StructField("Description", StringType()),
StructField("Quantity", StringType()),
StructField("InvoiceDate", StringType()),
StructField("UnitPrice", StringType()),
StructField("CustomerId", StringType()),
StructField("Country", StringType()),
StructField("InvoiceTimestamp", StringType())
])
data = spark.readStream.format("orc").schema(schema).option("header", "true").option("path", "<path_here>").load()
在应用一些转换之后,我喜欢保存大小为100mb的输出文件。
1条答案
按热度按时间mlnl4t2r1#
您应该覆盖默认的hdfs块大小。
参考资料:如何在pyspark中更改hdfs块大小?