pandas 从BigQuery中提取数据花费很长时间[重复]

fwzugrvs  于 2023-02-11  发布在  其他
关注(0)|答案(2)|浏览(121)
    • 此问题在此处已有答案**:

Takes too long to export data from bigquery into Jupyter notebook(5个答案)
昨天关门了。
我正在尝试从BigQuery中获取数据。当我获取小数据时一切都很好,但当我尝试获取大数据时,它会永远占用时间。任何有效的方法?
到目前为止,我使用这个:

import os
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = 'cred.json'
import google.auth
from google.cloud import bigquery

%load_ext google.cloud.bigquery

import google.datalab.bigquery as bq
from google.cloud.bigquery import Client

client = bigquery.Client()

下面是我的SQL命令:

sql = """
   SELECT bla, bla1, bla2
FROM table
"""
df = client.query(sql)
df.to_dataframe()
6ie5vjzr

6ie5vjzr1#

您可以通过更改方法以更快的速度将BigQuery数据导入 Dataframe 。
检查这些选项在图表中的反映方式:

  • 答:to_dataframe()-使用BigQuery表数据列表API。
  • B:to_dataframe(bqstorage_client=bqstorage_client),软件包版本1.16.0-使用带有Avro数据格式的BigQuery存储API。
  • C:to_dataframe(bqstorage_client=bqstorage_client),包版本1.17.0-使用带有箭头数据格式的BigQuery存储API。
  • D:to_arrow(bqstorage_client=bqstorage_client).to_pandas(),软件包版本1.17.0-使用带有箭头数据格式的BigQuery存储API。

请注意如何使用to_arrow(bqstorage_client=bqstorage_client).to_pandas()将〉500秒缩短到约20秒。
参见https://medium.com/google-cloud/announcing-google-cloud-bigquery-version-1-17-0-1fc428512171

vyswwuz2

vyswwuz22#

尝试使用以下方法,它的工作原理就像魔术,
%%大查询
从www.example.com选择 *table.name
有关详细说明,请单击此处〉〉https://cloud.google.com/bigquery/docs/visualize-jupyter

相关问题