谷歌云上的hadoop存储

cgh8pdjw 于 2021-06-02 发布在 Hadoop

关注(0)|答案(3)|浏览(391)

我有以下用例：需要使用pyspark分析的大量结构化数据。数据当前为csv格式。我正在尝试找出在google云上存储数据的最佳方法。我的理解是hdfs不起作用，因为每次集群关闭时hdfs数据都会消失，所以每次我都必须从csv转换到hdfs，这很耗时。似乎正确的策略是使用bigquery，但我无法确定bigquery是否持久？

hadoop google-bigquery

来源：https://stackoverflow.com/questions/44788063/storage-on-google-cloud

3条答案

按热度按时间

oxiaedzo1#

是的，bigquery是持久的，不过您也可以控制表的过期时间。要将csv文件加载到bigquery中，您可以通过指向它们在gcs上的位置来创建一个表，前提是您已将文件复制到那里。有各种各样的第三方连接器可以帮助您将数据传输到地面军事系统，bigquery团队提供的数据传输服务可以帮助您自动传输数据。

赞(0）回复(0）举报 2021-06-02

nwwlzxa72#

bigquery是持久的是的，那么您应该检查sla是否适合您。目前，sla每月的数据可用性>=99.9%。
你也可以存储在一个桶，在谷歌云存储。根据您希望访问该数据的频率，您有不同的价格：https://cloud.google.com/storage/
谷歌帮助你选择存储选项，看看他们文档的那一页：https://cloud.google.com/storage-options/

赞(0）回复(0）举报 2021-06-02

beq87vna3#

如果您计划只使用pyspark处理数据，那么最好将文件存储在google云存储中，而不是bigquery中。即使是托管的googlecloud的spark（dataproc）也不能像从googlecloud存储那样高效地读取bigquery存储。

赞(0）回复(0）举报 2021-06-02