我希望能够使用类似于“hdfs -text *.avro”的东西,但在谷歌云存储中读取JSON的avro文件。我将在Python脚本中解析JSON我正在寻找一个gsutil命令的方式来读取avro文件作为json,类似于我们如何在hdfs
mspsb9vt1#
无法直接读取Avro文件
如何在Google Cloud Storage中将Avro文件读取为JSON文本:
1.在本地计算机上安装avro-tools命令。1.运行以下gsutil命令:
avro-tools
gsutil cat gs://<bucket>/<path/to/avro/file.avro> | avro-tools tojson > <path/to/json/file.json>
这将从Google Cloud Storage读取Avro文件,将其转换为JSON,并将JSON输出写入指定的文件。1.使用JSON解析器(如json模块)解析Python脚本中的JSON文件。下面是一个解析JSON文件my-json-file.json的Python脚本示例:
json
my-json-file.json
import json with open("my-json-file.json", "r") as f: json_data = json.load(f) # Iterate over the JSON data and do something with it for record in json_data: print(record)
1条答案
按热度按时间mspsb9vt1#
无法直接读取Avro文件
如何在Google Cloud Storage中将Avro文件读取为JSON文本:
1.在本地计算机上安装
avro-tools
命令。1.运行以下gsutil命令:
这将从Google Cloud Storage读取Avro文件,将其转换为JSON,并将JSON输出写入指定的文件。
1.使用JSON解析器(如
json
模块)解析Python脚本中的JSON文件。下面是一个解析JSON文件
my-json-file.json
的Python脚本示例: