我有一个 Dataframe 列表,在列表的每个位置上,我有一个 Dataframe ,我需要将所有这些 Dataframe 合并到一个 Dataframe 中。这将在使用之前在PySpark中完成
dataframe_new =pd.concat(listName)
溶液1
from pyspark.sql.types import *
import pyspark.sql
from pyspark.sql import SparkSession, Row
customSchema = StructType([
StructField("col1", StringType(), True),
StructField("col2", StringType(), True),
StructField("col3", StringType(), True),
StructField("col4", StringType(), True),
StructField("col5", StringType(), True),
StructField("col6", StringType(), True),
StructField("col7", StringType(), True)
])
df = spark.createDataFrame(queried_dfs[0],schema=customSchema)
解决方案2我尝试:(迭代 Dataframe 列表,但不知道如何合并它们
for x in ListOfDataframe
new_df=union_all()
但这始终是创建一个new_df
能帮我解决吗
1条答案
按热度按时间l0oc07j21#
即使列或列顺序不同,此函数也可用于组合 Dataframe 列表
然后传递union_all一个 Dataframe 列表,例如