如何将pysparkDataframe写入不同的hadoop集群

w3nuxt5m  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(497)

我正在尝试备份我从pyspark程序写入hadoop集群的数据。我能做到吗?
现在,我正在寻找一个hadoop集群客户机概要文件,它在环境变量中设置hadoop集群的详细信息。然后我创建一个spark会话来创建一个Dataframe RDD .


# write to cluster 1 (current cluster)

df.write.format('csv').save('mydata')

# write to cluster 2 (backup cluster)

df.write.format('csv').save('backup_1/mydata')

我知道这听起来很奇怪。但这有可能吗?如果没有,我该怎么做

nnsrf1az

nnsrf1az1#

下面是一个示例,说明您为什么不将文件(CV)保存/存储为Parquet格式,如下所示:

df.write.mode('overwrite').parquet("/backup_1/mydata.parquet")

使用完你的spark会话后,按如下方式进行:

df_readed = urSparkSession.read.parquet("/backup_1/mydata.parquet")

致以最诚挚的问候,
阿巴卡尔

相关问题