在使用bigquery和spark时强制使用gcs

wbgh16ku 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(347)

我在本地机器上工作而不是在google云环境下使用spark来使用bigquery，我浏览了google为bigquery提供的文档，没有找到足够的关于如何将bigquery和spark一起使用的文档，我在这里找到的内容如下：
使用连接器时，还将收取任何相关联的bigquery使用费。此外，hadoop的bigqueryconnector在运行hadoop作业之前将数据下载到google云存储桶中。hadoop作业成功完成后，数据将从云存储中删除。根据云存储定价向您收取存储费用。为避免额外收费，请检查您的云存储帐户，并确保删除不需要的临时文件。
我的问题是，为什么不必要地使用bigquery和云存储这两个云服务是强制性的，即使我只想使用bigquery？另外，任何人都可以推荐任何参考/博客，在那里我可以找到清晰的信息来使用sparkapi执行标准sql查询，就像我们在bigquery的webui中执行一样。
@spotify：我正在使用您实现的模块来处理这里提供的bigquery和spark，但是正如您在这里提到的，这个模块只适用于遗留sql，所以任何修改代码的建议都可以使该模块与标准sql一起工作，就像它在处理遗留sql一样。

hadoop apache-spark google-bigquery google-cloud-platform spotify

来源：https://stackoverflow.com/questions/44016810/compulsion-of-gcs-usage-while-using-bigquery-with-spark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在使用bigquery和spark时强制使用gcs

暂无答案！

相关问题

热门标签

最新问答