kafka将文件作为文本流传输到google云存储(gcs)。新文件每5分钟上传一次。下面是其示例文件的一部分。
这里首先提到主题名,然后是分区和偏移量。它的一些主题只有很少的字段,有些主题有大量的字段(例如:名为sales的主题有personalbc和city的字段名)。所有上传到gcs的文本文件都有大约15个主题名。如何将它们上传到bigquery?
最好的方法是什么?
kafka将文件作为文本流传输到google云存储(gcs)。新文件每5分钟上传一次。下面是其示例文件的一部分。
这里首先提到主题名,然后是分区和偏移量。它的一些主题只有很少的字段,有些主题有大量的字段(例如:名为sales的主题有personalbc和city的字段名)。所有上传到gcs的文本文件都有大约15个主题名。如何将它们上传到bigquery?
最好的方法是什么?
1条答案
按热度按时间xzlaal3s1#
没有什么神奇的,你必须手动解析文件。
当文件到达gcs时,触发一个云函数
云函数可以做到这一点
下载文件
解析文件并将其转换为存储在中的一个或多个文件
/tmp
目录调用bigQueryAPI从本地文件加载数据(每个表一个调用)。每个表和每天的加载作业数量限制为1000个)。指定文件格式(csv或json行是最常见的,并且更易于处理/生成)