我已经通过pandas将大约800gb的大Dataframe存储到hdf5中 pandas.HDFStore()
.
import pandas as pd
store = pd.HDFStore('store.h5')
df = pd.Dataframe() # imagine the data being munged into a dataframe
store['df'] = df
我想问一下 Impala 。有没有一种简单的方法将这些数据解析为parquet?或者 Impala 允许你直接使用hdf5?hdf5上的数据还有其他选项吗?
1条答案
按热度按时间lvmkulzt1#
我自己也没试过,但下面的链接展示了如何使用spark将HDF商店转换为Parquet地板:https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f.