设置fs.defaultfs属性时无法创建dataproc集群?

6ljaweal  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(533)

这已经是前一篇文章讨论的对象了,但是,我不相信这些答案,因为google文档指定可以创建一个设置fs.defaultfs属性的集群。此外,即使可以通过编程方式设置此属性,有时从命令行设置它也更方便。
所以我想知道为什么传递给集群创建命令的以下选项不起作用: --properties core:fs.defaultFS=gs://my-bucket ? 请注意,我没有包括所有参数,因为我运行命令时没有前面的标志,它成功地创建了集群。但是,当传递这个消息时,我得到:“failed:cannot start master:insufficientnumber of datanodes reporting。”
如果有人通过设置fs.defaultfs来创建dataproc集群,那就太好了?谢谢。

cyvaqqii

cyvaqqii1#

确实,由于对实际hdf的某些依赖性,仍然存在已知的问题;这些文档并不意味着在集群创建时将fs.defaultfs设置为gcs路径会起作用,而是简单地提供了一个在 core-site.xml ; 从理论上讲,这是可行的 fs.defaultFS 例如,到另一个先前存在的hdfs集群。为了避免混淆,我已经提交了修改文档中示例的通知单。
两种选择:
只需覆盖 fs.defaultFS 在作业提交时使用每个作业属性
通过设置 fs.defaultFS 显式使用初始化操作而不是群集属性。
更好地理解选项1的工作原理,因为集群级hdfs依赖关系不会改变。选项2之所以起作用,是因为大多数不兼容只发生在初始启动期间,并且初始化操作在相关守护进程已经启动之后运行。要重写init操作中的设置,可以使用 bdconfig :

bdconfig set_property \
    --name 'fs.defaultFS' \
    --value 'gs://my-bucket' \
    --configuration_file /etc/hadoop/conf/core-site.xml \
    --clobber

相关问题