对于临时数据处理集群上的Hadoop，建议的DefaultFS(文件系统)是什么？

dly7yett 于 2022-11-01 发布在 Hadoop

关注(0)|答案(2)|浏览(166)

对于Dataproc上的Hadoop，推荐的DefaultFS（文件系统）是什么？使用GCS与HDFS作为默认文件系统时，是否有任何基准测试和注意事项？
我还尝试进行了测试，发现当我将DefaultFS设置为gs://路径时，Hive暂存文件会被创建--既在HDFS上也在GCS路径上。这是同步发生的，增加了延迟，还是在事后写入GCS？

如有任何指导，参考，请与我联系。谢谢
PS：这些是临时的Dataproc群集，将使用GCS来处理所有持久性数据。

hadoop

来源：https://stackoverflow.com/questions/72753214/what-is-the-recommended-defaultfs-file-system-for-hadoop-on-ephemeral-dataproc

2条答案

按热度按时间

7d7tgy0s1#

HDFS速度更快。应该已经有了公共基准，或者只是作为一个事实，因为GCS是网络存储，HDFS直接安装在Dataproc虚拟机中。
“推荐”的是永久存储，比如GCS，但可能只有在应用程序中的数据完成之后。例如，您可能不希望在GCS中使用Hive暂存文件，因为它们永远不会在当前查询会话之外使用，但如果您正在运行定期批处理作业，这些作业会在执行之间缩减HDFS集群，则您可能希望使用Spark检查点

赞(0）回复(0）举报 2022-11-01

k5ifujac2#

我会说默认（HDFS）。通常，Dataproc作业的输入和输出数据在GCS或BigQuery中保留在群集外部，群集用于计算和中间数据。这些中间数据直接存储在本地磁盘上，或通过HDFS（最终也存储在本地磁盘上）存储。作业完成后，您可以安全地删除群集，仅需支付输入输出数据的存储费用，保存成本。
此外，HDFS通常对中间数据具有较低的延迟，特别是对于大量的小文件和元数据操作，例如目录重命名。GCS对大文件的吞吐量更好。
但在使用HDFS时，您需要配置足够的磁盘空间（每个节点至少1TB），并考虑使用本地SSD。https://cloud.google.com/dataproc/docs/support/spark-job-tuning#optimize_disk_size有关详细信息，请访问www.example.com。

赞(0）回复(0）举报 2022-11-01

我来回答

对于临时数据处理集群上的Hadoop，建议的DefaultFS(文件系统)是什么？

2条答案

相关问题

热门标签

最新问答