我有以下用例:需要使用pyspark分析的大量结构化数据。数据当前为csv格式。我正在尝试找出在google云上存储数据的最佳方法。我的理解是hdfs不起作用,因为每次集群关闭时hdfs数据都会消失,所以每次我都必须从csv转换到hdfs,这很耗时。似乎正确的策略是使用bigquery,但我无法确定bigquery是否持久?
oxiaedzo1#
是的,bigquery是持久的,不过您也可以控制表的过期时间。要将csv文件加载到bigquery中,您可以通过指向它们在gcs上的位置来创建一个表,前提是您已将文件复制到那里。有各种各样的第三方连接器可以帮助您将数据传输到地面军事系统,bigquery团队提供的数据传输服务可以帮助您自动传输数据。
nwwlzxa72#
bigquery是持久的是的,那么您应该检查sla是否适合您。目前,sla每月的数据可用性>=99.9%。你也可以存储在一个桶,在谷歌云存储。根据您希望访问该数据的频率,您有不同的价格:https://cloud.google.com/storage/谷歌帮助你选择存储选项,看看他们文档的那一页:https://cloud.google.com/storage-options/
beq87vna3#
如果您计划只使用pyspark处理数据,那么最好将文件存储在google云存储中,而不是bigquery中。即使是托管的googlecloud的spark(dataproc)也不能像从googlecloud存储那样高效地读取bigquery存储。
3条答案
按热度按时间oxiaedzo1#
是的,bigquery是持久的,不过您也可以控制表的过期时间。要将csv文件加载到bigquery中,您可以通过指向它们在gcs上的位置来创建一个表,前提是您已将文件复制到那里。有各种各样的第三方连接器可以帮助您将数据传输到地面军事系统,bigquery团队提供的数据传输服务可以帮助您自动传输数据。
nwwlzxa72#
bigquery是持久的是的,那么您应该检查sla是否适合您。目前,sla每月的数据可用性>=99.9%。
你也可以存储在一个桶,在谷歌云存储。根据您希望访问该数据的频率,您有不同的价格:https://cloud.google.com/storage/
谷歌帮助你选择存储选项,看看他们文档的那一页:https://cloud.google.com/storage-options/
beq87vna3#
如果您计划只使用pyspark处理数据,那么最好将文件存储在google云存储中,而不是bigquery中。即使是托管的googlecloud的spark(dataproc)也不能像从googlecloud存储那样高效地读取bigquery存储。