这已经是前一篇文章讨论的对象了,但是,我不相信这些答案,因为google文档指定可以创建一个设置fs.defaultfs属性的集群。此外,即使可以通过编程方式设置此属性,有时从命令行设置它也更方便。
所以我想知道为什么传递给集群创建命令的以下选项不起作用: --properties core:fs.defaultFS=gs://my-bucket
? 请注意,我没有包括所有参数,因为我运行命令时没有前面的标志,它成功地创建了集群。但是,当传递这个消息时,我得到:“failed:cannot start master:insufficientnumber of datanodes reporting。”
如果有人通过设置fs.defaultfs来创建dataproc集群,那就太好了?谢谢。
1条答案
按热度按时间cyvaqqii1#
确实,由于对实际hdf的某些依赖性,仍然存在已知的问题;这些文档并不意味着在集群创建时将fs.defaultfs设置为gcs路径会起作用,而是简单地提供了一个在
core-site.xml
; 从理论上讲,这是可行的fs.defaultFS
例如,到另一个先前存在的hdfs集群。为了避免混淆,我已经提交了修改文档中示例的通知单。两种选择:
只需覆盖
fs.defaultFS
在作业提交时使用每个作业属性通过设置
fs.defaultFS
显式使用初始化操作而不是群集属性。更好地理解选项1的工作原理,因为集群级hdfs依赖关系不会改变。选项2之所以起作用,是因为大多数不兼容只发生在初始启动期间,并且初始化操作在相关守护进程已经启动之后运行。要重写init操作中的设置,可以使用
bdconfig
: