pysparkDataframerdd

mwkjh3gx  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(264)

我正在提取不同源文件的信息。每个源文件对应于某些测量数据的给定快照时间。我有一个预处理函数,它接收其中一个文件并输出一个Dataframe。所以我做了一个Spark sc.wholeTextFiles 调用,它给了我一个所有输入文件的列表,然后我调用 map 它为我提供了一个rdd,其中每个元素都是一个Dataframe。现在“重塑”这个结构的最佳方法是什么,这样我就只有一个由串联的较小Dataframe组成的结果Dataframe?

pwuypxnk

pwuypxnk1#

您可以创建sparkDataframe。假设这些文件位于一个位置并被删除,您可以使用spark创建一个新的Dataframe,其中包含来自所有文件的数据。

spark.read.option("header", "true").csv("../location/*")

之后,您可以使用spark中提供的许多转换。它们与Pandas非常相似,在大数据上工作,甚至比rdd更快。

相关问题