如何将hdf5文件转换为Parquet文件?

0pizxfdo  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(501)

我已经通过pandas将大约800gb的大Dataframe存储到hdf5中 pandas.HDFStore() .

import pandas as pd
store = pd.HDFStore('store.h5')
df = pd.Dataframe() # imagine the data being munged into a dataframe
store['df'] = df

我想问一下 Impala 。有没有一种简单的方法将这些数据解析为parquet?或者 Impala 允许你直接使用hdf5?hdf5上的数据还有其他选项吗?

lvmkulzt

lvmkulzt1#

我自己也没试过,但下面的链接展示了如何使用spark将HDF商店转换为Parquet地板:https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f.

相关问题