我在spark dataframe中有一个很大的数据集。我想把这些数据保存到配置单元中。以下哪个选项能给我最好的表现?将此数据从sparkDataframe保存到hdfs并在其上创建配置单元外部表?将sparkDataframe中的数据直接写入配置单元表?哪一个性能最好?为什么?
yi0zb3m41#
最好将sparkDataframe中的数据直接写入hive表。存储在配置单元表中的所有数据都作为文件存储在hdfs中。在hdfs中保存数据和在上面创建一个hive外部表似乎是一项双重工作。spark的特性是将dataframe中的数据直接保存到配置单元表中,前提是您必须使用dataframe中的模式创建配置单元表,这要容易得多。spark将数据从dataframe写入hdfs或hive表的性能取决于您的集群设置。
1条答案
按热度按时间yi0zb3m41#
最好将sparkDataframe中的数据直接写入hive表。
存储在配置单元表中的所有数据都作为文件存储在hdfs中。
在hdfs中保存数据和在上面创建一个hive外部表似乎是一项双重工作。
spark的特性是将dataframe中的数据直接保存到配置单元表中,前提是您必须使用dataframe中的模式创建配置单元表,这要容易得多。
spark将数据从dataframe写入hdfs或hive表的性能取决于您的集群设置。