使用dask和pyarrow数据集引擎读取spark编写的分区实木地板数据集

4ioopgfo 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(283)

我想阅读spark使用dask和pyarrow数据集引擎编写的分区实木地板数据集。理想情况下，我将能够提供一个Parquet文件列表阅读。下面是一个简单的测试示例，演示了我在更大的数据集上遇到的一些错误和意外行为：
使用spark写入数据：

df = spark.createDataFrame(
[("A", 1, 4),
 ("B", 2, 5),
 ("C", 3, 6)
],["id", "col1", "col2"])

home_dir = "/home/xxx/"

df \
.write.format("parquet") \
.mode("overwrite") \
.partitionBy("id") \
.save(home_dir + "parquet_dataset")

带有pyarrow引擎和目录的dask工作：

import os
from glob import glob
import pyarrow.parquet as pq
import pyarrow.dataset as ds
import dask.dataframe as dd

dd.read_parquet(path=home_dir + "parquet_dataset", engine="pyarrow").compute()

带有文件列表的dask会删除分区列

paths = [y for x in os.walk(home_dir + "parquet_dataset") for y in glob(os.path.join(x[0],'*.parquet'))]
dd.read_parquet(path=paths, engine="pyarrow").compute()

带有pyarrow数据集引擎的dask导致错误：

dd.read_parquet(path=home_dir + "parquet_dataset", engine="pyarrow-dataset")
or
dd.read_parquet(path=paths, engine="pyarrow-dataset") # This is ideally what I am after

valueerror:列中不应存在分区。类别：['col1'，'col2'，'id']|分区：['id']
但以下pyarrow方法可以很好地工作：

pq.read_table(paths).to_pandas()
ds.dataset(source=paths, partitioning="hive", format="parquet").to_table().to_pandas()

使用dask和这种格式的Parquet、分区和使用文件列表的idealling有可能获得相同的行为吗？任何关于我做错了什么的帮助或想法都将不胜感激。

apache-spark pyarrow dask-dataframe

来源：https://stackoverflow.com/questions/67222212/read-partitioned-parquet-dataset-written-by-spark-using-dask-and-pyarrow-dataset

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

使用dask和pyarrow数据集引擎读取spark编写的分区实木地板数据集

暂无答案！

相关问题

热门标签

最新问答