dataproc没有从自定义conda通道安装自定义conda包

fivyi3re  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(590)

我正试图在gcp中启动一个单节点dataproc“集群”,安装来自这两个节点的附加包 conda-forge 还有定制的康达频道。我运行的gcloud命令是:

gcloud beta dataproc clusters create MY_CLUSTER_NAME \
  --enable-component-gateway \
  --bucket MY_GCS_BUCKET \
  --region us-central1 \
  --subnet default \
  --zone us-central1-a \
  --single-node \
  --master-machine-type n1-standard-4 \
  --master-boot-disk-size 500 \
  --image-version 1.5-ubuntu18 \
  --properties spark:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4,spark-env:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4 \
  --optional-components ANACONDA,JUPYTER \
  --max-idle 7200s \
  --scopes 'https://www.googleapis.com/auth/cloud-platform' \
  --project MY_PROJECT_ID \
  --metadata='CONDA_PACKAGES=pandas matplotlib seaborn scikit-learn MY_CUSTOM_PACKAGE' \
  --metadata='CONDA_CHANNELS=conda-forge https://MY_CUSTOM_CONDA_CHANNEL'

我已经证实我可以 conda install -c https://MY_CUSOMT_CONDA_CHANNEL MY_CUSTOM_PACKAGE 本地安装,并且正在安装其他包。在搜索集群的日志时,我没有找到任何关于额外conda包安装的条目。
问题:
在哪里可以找到帮助我调试此问题的日志?
上面的命令有问题吗?

mm9b1k5b

mm9b1k5b1#

似乎你没有添加 conda-install.sh 初始化操作创建集群时,请参阅本文档中的更多详细信息,例如:

gcloud dataproc clusters create my-cluster \
    --image-version=1.4 \
    --region=${REGION} \
    --metadata='CONDA_PACKAGES=pandas matplotlib seaborn scikit-learn MY_CUSTOM_PACKAGE' \
    --metadata='CONDA_CHANNELS=conda-forge https://MY_CUSTOM_CONDA_CHANNEL' \
    --initialization-actions=gs://goog-dataproc-initialization-actions-${REGION}/python/conda-install.sh

您应该可以在以下位置找到init操作日志 /var/log/dataproc-initialization-script-0.log ,详见本文件。

相关问题