从spark cluster分离hive存储(计算层)

5n0oy7gb 于 2021-06-24 发布在 Hive

关注(0)|答案(0)|浏览(312)

我们有一个场景，在云环境中使用hive的存储能力（下面是hdfs）和spark cluster的计算能力。有没有办法把这两层分开。
脚本：
hive定期获取数据（持久层）。不能随意删除。
使用spark cluster在任意点处理Hive层中的数据。但我们不希望在计算完成后使集群基础设施处于空闲状态。
因此，我们正在考虑在需要处理之前在云中创建集群，并在处理结束后立即删除spark集群。优势在于节省集群资源的维护成本。
如果我们将数据加载到一个节点集群中的hive上，那么我们可以读取这些数据，以便在spark集群中进行处理，而不必进行数据移动。
假设-hadoop的datanodes没有使用高端配置，它们不适合在内存中进行spark处理（cpu资源不足；内存不足）。
请说明这种情况在云基础设施（gcp）中是否可行。有没有更好的方法来解决这个问题。

Hive apache-spark google-cloud-platform

来源：https://stackoverflow.com/questions/57621573/separating-hive-storage-from-spark-cluster-compute-layer

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

从spark cluster分离hive存储(计算层)

暂无答案！

相关问题

热门标签

最新问答