gcp-cdap-dataproc集群处于运行状态

ijnw1ujt  于 2021-07-09  发布在  Spark
关注(0)|答案(1)|浏览(365)

我们有一个数据融合管道,它是由云生成器dag触发的。这个管道提供了一个短暂的dataproc集群,在理想情况下,该集群在完成任务后终止。
在我们的例子中,有时(并非总是),这个短暂的dataproc集群会在运行状态下阻塞。集群中的作业也处于运行状态,最后的日志消息如下:

INFO runtimejob.DataprocJobMain: Invoking initialize() on io.cdap.cdap.runtime.spi.runtimejob.DataprocRuntimeEnvironment with spark2_2.11
INFO runtimejob.DataprocJobMain: Invoking run() on io.cdap.cdap.internal.app.runtime.distributed.runtimejob.DefaultRuntimeJob
INFO runtimejob.DataprocJobMain: Invoking destroy() on io.cdap.cdap.internal.app.runtime.distributed.runtimejob.DefaultRuntimeJob
INFO runtimejob.DataprocJobMain: Runtime job completed.
Exception: java.lang.NoClassDefFoundError thrown from the UncaughtExceptionHandler in thread " STARTING-SendThread(cdap-<our-identifier>-1f11111b-1d11-11eb-b1a1-1a111fb11d11-m.c.<our-gcp-project-name>.internal:41409)"
Exception: java.lang.NoClassDefFoundError thrown from the UncaughtExceptionHandler in thread "threadDeathWatcher-2-1"

在数据融合方面,管道被标记为成功。数据融合日志如下:

Completed DEPROVISION subtask REQUESTING_DELETE for program run program_run: <data_fusion_namespace>.<pipeline_name>.-SNAPSHOT.workflow.DataPipelineWorkflow.<data_proc_id> //this message is repeated many-many times
DEBUG [provisioning-service-4:i.c.c.c.s.Retries@197] - Retries exhausted after 1 failures and 14 ms.

你知道是什么导致了这个问题吗?
p、 消息中的标识符被替换为随机值

nbewdwxp

nbewdwxp1#

您正在运行哪个版本的数据融合?另外,dataproc集群的内存量是多少?有时,当dataproc集群内存不足时,我们会发现这个问题。我建议增加记忆量。

相关问题