对于临时数据处理集群上的Hadoop,建议的DefaultFS(文件系统)是什么?

dly7yett  于 2022-11-01  发布在  Hadoop
关注(0)|答案(2)|浏览(166)

对于Dataproc上的Hadoop,推荐的DefaultFS(文件系统)是什么?使用GCS与HDFS作为默认文件系统时,是否有任何基准测试和注意事项?
我还尝试进行了测试,发现当我将DefaultFS设置为gs://路径时,Hive暂存文件会被创建--既在HDFS上也在GCS路径上。这是同步发生的,增加了延迟,还是在事后写入GCS?

如有任何指导,参考,请与我联系。谢谢
PS:这些是临时的Dataproc群集,将使用GCS来处理所有持久性数据。

7d7tgy0s

7d7tgy0s1#

HDFS速度更快。应该已经有了公共基准,或者只是作为一个事实,因为GCS是网络存储,HDFS直接安装在Dataproc虚拟机中。
“推荐”的是永久存储,比如GCS,但可能只有在应用程序中的数据完成之后。例如,您可能不希望在GCS中使用Hive暂存文件,因为它们永远不会在当前查询会话之外使用,但如果您正在运行定期批处理作业,这些作业会在执行之间缩减HDFS集群,则您可能希望使用Spark检查点

k5ifujac

k5ifujac2#

我会说默认(HDFS)。通常,Dataproc作业的输入和输出数据在GCS或BigQuery中保留在群集外部,群集用于计算和中间数据。这些中间数据直接存储在本地磁盘上,或通过HDFS(最终也存储在本地磁盘上)存储。作业完成后,您可以安全地删除群集,仅需支付输入输出数据的存储费用,保存成本。
此外,HDFS通常对中间数据具有较低的延迟,特别是对于大量的小文件和元数据操作,例如目录重命名。GCS对大文件的吞吐量更好。
但在使用HDFS时,您需要配置足够的磁盘空间(每个节点至少1TB),并考虑使用本地SSD。https://cloud.google.com/dataproc/docs/support/spark-job-tuning#optimize_disk_size有关详细信息,请访问www.example.com。

相关问题