我有一个1.5Gb的大数据文件,其中有多个字段由选项卡分隔。我需要在这个文件中从一个Web界面/ AJAX 查询像一个API,可能是大量的Ajax请求来在每一秒。因此,它需要快速响应。检索此数据的最快选项是什么?是否有性能测试信息、基准测试?考虑到制表符分隔的CSV文件是将加载到内存中的平面文件。但它不能产生指数。JSON具有更多的文本,因为可以创建“索引”JSON,对特定字段的条目进行分组。
nxagd54h1#
都不是,对你所说的目的来说,它们都很可怕。JSON不能部分加载; TSV可以在不将其加载到存储器中的情况下被扫描,但是具有顺序访问。使用适当的数据库。如果由于某种原因,你不能使用数据库,你可以通过使用TSV或JSONL(不是JSON)来McGyver[1]它,并带有一个额外的索引文件,该索引文件指定每个ID(或另一个可搜索字段)的记录开始的字节位置。
1条答案
按热度按时间nxagd54h1#
都不是,对你所说的目的来说,它们都很可怕。JSON不能部分加载; TSV可以在不将其加载到存储器中的情况下被扫描,但是具有顺序访问。使用适当的数据库。
如果由于某种原因,你不能使用数据库,你可以通过使用TSV或JSONL(不是JSON)来McGyver[1]它,并带有一个额外的索引文件,该索引文件指定每个ID(或另一个可搜索字段)的记录开始的字节位置。