文本文件每5分钟上传到gcs如何上传到bigquery?

oymdgrw7  于 2021-06-04  发布在  Kafka
关注(0)|答案(1)|浏览(402)

kafka将文件作为文本流传输到google云存储(gcs)。新文件每5分钟上传一次。下面是其示例文件的一部分。

这里首先提到主题名,然后是分区和偏移量。它的一些主题只有很少的字段,有些主题有大量的字段(例如:名为sales的主题有personalbc和city的字段名)。所有上传到gcs的文本文件都有大约15个主题名。如何将它们上传到bigquery?
最好的方法是什么?

xzlaal3s

xzlaal3s1#

没有什么神奇的,你必须手动解析文件。
当文件到达gcs时,触发一个云函数
云函数可以做到这一点
下载文件
解析文件并将其转换为存储在中的一个或多个文件 /tmp 目录
调用bigQueryAPI从本地文件加载数据(每个表一个调用)。每个表和每天的加载作业数量限制为1000个)。指定文件格式(csv或json行是最常见的,并且更易于处理/生成)

相关问题