json 阅读大型.gz文件时出现问题

km0tfn4u 于 2023-01-18 发布在其他

关注(0)|答案(1)|浏览(139)

我正在阅读一个大的压缩JSON文件~4GB。我想读取第一个n行。

with gzip.open('/path/to/my/data/data.json.gz','rt') as f:
    line_n = f.readlines(1)
    print(ast.literal_eval(line_n[0])['events']) # a dictionary object

当我想读一行的时候，这个方法很好用。如果现在尝试在循环中读。

no_of_lines = 1
with gzip.open('/path/to/my/data/data.json.gz','rt') as f:
    for line in range(no_of_lines):
        line_n = f.readlines(line)
        print(ast.literal_eval(line_n[0])['events'])

我的代码执行时间很长，* 即使循环长度为1*。我假设这种行为与gzip读取文件的方式有关，也许当我循环时，它试图获取文件长度的信息，这导致了长时间的执行。有人能解释一下这一点，并提供一种替代方法吗？
编辑的第一行数据：['{"events": {"category": "EVENT", "mac_address": "123456", "co_site": "HSTH"}}\n']

JSON

来源：https://stackoverflow.com/questions/75148883/issues-reading-in-large-gz-files

1条答案

按热度按时间

idv4meu81#

我们使用的是readlines（）方法，它同时读取文件中的所有行，这可能会在阅读大文件时导致性能问题，因为Python需要一次将所有行加载到内存中。
另一种方法是使用iter（）方法迭代文件的各行，而不必一次将所有行加载到内存中：

with gzip.open('/path/to/my/data/data.json.gz','rt') as f:
    for line in f:
        print(ast.literal_eval(line)['events'])

赞(0）回复(0）举报 2023-01-18

我来回答

json 阅读大型.gz文件时出现问题

1条答案

相关问题

热门标签

最新问答