向分区数据集添加新值pyarrow

ilmyapht 于 2021-05-17 发布在 Spark

关注(0)|答案(0)|浏览(362)

我有一个数据集，如下所示，包含以下列：park、md、powerby、value
使用以下代码，我们将数据集保存在按列park划分的hdfs分区中：

import pandas as pd
import pyarrow.parquet as pq
import pyarrow as pa 

df = pd.read_csv('mycsv.csv')

table = pa.Table.from_pandas(df,preserve_index=False)

fs = pa.hdfs.connect(host=HDFS_HOST, port=HDFS_PORT, user=HDFS_USER)

pq.write_to_dataset(
    table,
    root_path='path/hdfs',
    partition_cols=['PARK'],
    flavor='spark',
    filesystem=fs
)

到现在为止，一直都还不错。现在，假设我得到另一个数据集mycsv2.csv，具有相同的列。如何将此数据集添加到先前创建的分区中？

hdfs python apache-spark parquet pyarrow

来源：https://stackoverflow.com/questions/64911424/adding-new-values-to-a-partitioned-dataset-pyarrow

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

向分区数据集添加新值pyarrow

暂无答案！

相关问题

热门标签

最新问答