我使用spark2.4.0和“org.apache.bahir-sparksqlcloudant-2.4.0”我必须从couchdb下载所有json文件到hdfs。
val df = spark
.read
.format("org.apache.bahir.cloudant")
.load("demo")
df.persist(StorageLevel.MEMORY_AND_DISK)
df
.write
.partitionBy("year", "month", "day")
.mode("append")
.parquet("...")
总文件大小为160gb(>1300万个文件)运行5分钟后spark作业出错
原因:com.cloudant.client.org.lightcouch.couchdbexception:检索服务器响应时出错
增加超时时间是没有帮助的,但是稍后有什么方法可以摆脱这种情况呢?
1条答案
按热度按时间qjp7pelc1#
使用另一个端点进行查询,对所有文档使用更改