带spark和couchdb的大数据

mbskvtky  于 2021-07-13  发布在  Spark
关注(0)|答案(1)|浏览(367)

我使用spark2.4.0和“org.apache.bahir-sparksqlcloudant-2.4.0”我必须从couchdb下载所有json文件到hdfs。

val df = spark
  .read
  .format("org.apache.bahir.cloudant")
  .load("demo")
df.persist(StorageLevel.MEMORY_AND_DISK)

 df
  .write
  .partitionBy("year", "month", "day")
  .mode("append")
  .parquet("...")

总文件大小为160gb(>1300万个文件)运行5分钟后spark作业出错
原因:com.cloudant.client.org.lightcouch.couchdbexception:检索服务器响应时出错
增加超时时间是没有帮助的,但是稍后有什么方法可以摆脱这种情况呢?

qjp7pelc

qjp7pelc1#

使用另一个端点进行查询,对所有文档使用更改

相关问题