Apache Spark Python -重新排序CSV列以匹配数据框

qcuzuvrc 于 2022-11-16 发布在 Apache

关注(0)|答案(2)|浏览(110)

假设我有一个表/ Dataframe ，其中包含以下列：

现在，我有了一个csv文件，其中的值可以添加到该表中，但顺序不正确：

是否有方法对csv中的列进行排序以匹配Table/Dataframe的格式？（假设这适用于许多列/行数据。）

2条答案

您可以使用select（）方法对列进行重新排序：

df.select("Fruit","Color", "Taste")

此外，如果您希望联合这两个 Dataframe ，则可以使用unionByName，而无需更改列的顺序，如下所示：

df1.unionByName(df2)

假设两个 Dataframe 具有相同的列，您可以尝试执行以下操作：

df2 = df2[df1.columns]

或者：

df2 = df2.reindex(df1.columns, axis=1)