我有以下代码;
test_df = (spark.read
.schema(newSchema)
.option("header", "true")
.option("delimiter", "\t").csv("wasbs://container@AzureStorageAcc.blob.core.windows.net/dir1/dir2/2021/02/05/"))
但这似乎不起作用。有没有其他方法可以将tsv.gz读取为sparkDataframe?
1条答案
按热度按时间mpgws1up1#
尝试移除
.format("cloudFiles")
根据您的命令,这只用于处理结构化流,我怀疑它可能会干扰.csv
.