我正在提取不同源文件的信息。每个源文件对应于某些测量数据的给定快照时间。我有一个预处理函数,它接收其中一个文件并输出一个Dataframe。所以我做了一个Spark sc.wholeTextFiles
调用,它给了我一个所有输入文件的列表,然后我调用 map
它为我提供了一个rdd,其中每个元素都是一个Dataframe。现在“重塑”这个结构的最佳方法是什么,这样我就只有一个由串联的较小Dataframe组成的结果Dataframe?
我正在提取不同源文件的信息。每个源文件对应于某些测量数据的给定快照时间。我有一个预处理函数,它接收其中一个文件并输出一个Dataframe。所以我做了一个Spark sc.wholeTextFiles
调用,它给了我一个所有输入文件的列表,然后我调用 map
它为我提供了一个rdd,其中每个元素都是一个Dataframe。现在“重塑”这个结构的最佳方法是什么,这样我就只有一个由串联的较小Dataframe组成的结果Dataframe?
1条答案
按热度按时间pwuypxnk1#
您可以创建sparkDataframe。假设这些文件位于一个位置并被删除,您可以使用spark创建一个新的Dataframe,其中包含来自所有文件的数据。
之后,您可以使用spark中提供的许多转换。它们与Pandas非常相似,在大数据上工作,甚至比rdd更快。