我正在尝试备份我从pyspark程序写入hadoop集群的数据。我能做到吗?
现在,我正在寻找一个hadoop集群客户机概要文件,它在环境变量中设置hadoop集群的详细信息。然后我创建一个spark会话来创建一个Dataframe RDD
.
# write to cluster 1 (current cluster)
df.write.format('csv').save('mydata')
# write to cluster 2 (backup cluster)
df.write.format('csv').save('backup_1/mydata')
我知道这听起来很奇怪。但这有可能吗?如果没有,我该怎么做
1条答案
按热度按时间nnsrf1az1#
下面是一个示例,说明您为什么不将文件(CV)保存/存储为Parquet格式,如下所示:
使用完你的spark会话后,按如下方式进行:
致以最诚挚的问候,
阿巴卡尔