文本文件每5分钟上传到gcs如何上传到bigquery？

oymdgrw7 于 2021-06-04 发布在 Kafka

关注(0)|答案(1)|浏览(402)

kafka将文件作为文本流传输到google云存储（gcs）。新文件每5分钟上传一次。下面是其示例文件的一部分。

这里首先提到主题名，然后是分区和偏移量。它的一些主题只有很少的字段，有些主题有大量的字段（例如：名为sales的主题有personalbc和city的字段名）。所有上传到gcs的文本文件都有大约15个主题名。如何将它们上传到bigquery？
最好的方法是什么？

apache-kafka google-bigquery google-cloud-storage google-cloud-platform text-files

来源：https://stackoverflow.com/questions/63312643/text-files-uploaded-to-gcs-every-5-minutes-how-to-upload-them-into-bigquery

1条答案

按热度按时间

xzlaal3s1#

没有什么神奇的，你必须手动解析文件。
当文件到达gcs时，触发一个云函数
云函数可以做到这一点
下载文件
解析文件并将其转换为存储在中的一个或多个文件 /tmp 目录
调用bigQueryAPI从本地文件加载数据（每个表一个调用）。每个表和每天的加载作业数量限制为1000个）。指定文件格式（csv或json行是最常见的，并且更易于处理/生成）

赞(0）回复(0）举报 2021-06-04

我来回答

文本文件每5分钟上传到gcs如何上传到bigquery？

1条答案

相关问题

热门标签

最新问答