在使用bigquery和spark时强制使用gcs

wbgh16ku  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(318)

我在本地机器上工作而不是在google云环境下使用spark来使用bigquery,我浏览了google为bigquery提供的文档,没有找到足够的关于如何将bigquery和spark一起使用的文档,我在这里找到的内容如下:
使用连接器时,还将收取任何相关联的bigquery使用费。此外,hadoop的bigqueryconnector在运行hadoop作业之前将数据下载到google云存储桶中。hadoop作业成功完成后,数据将从云存储中删除。根据云存储定价向您收取存储费用。为避免额外收费,请检查您的云存储帐户,并确保删除不需要的临时文件。
我的问题是,为什么不必要地使用bigquery和云存储这两个云服务是强制性的,即使我只想使用bigquery?另外,任何人都可以推荐任何参考/博客,在那里我可以找到清晰的信息来使用sparkapi执行标准sql查询,就像我们在bigquery的webui中执行一样。
@spotify:我正在使用您实现的模块来处理这里提供的bigquery和spark,但是正如您在这里提到的,这个模块只适用于遗留sql,所以任何修改代码的建议都可以使该模块与标准sql一起工作,就像它在处理遗留sql一样。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题