如何将几十个小的二进制文件作为元数据放到parquet文件中 Map<fileName, fileContent> ?小文件是文档,图片平均约100kb。我们已经把一些短字符串值Parquet元信息Map,但有限制数量的Map条目,总大小的Map或大小的个别Map价值?如果是,有哪些限制?也许我的目标不太可能违反限制?
Map<fileName, fileContent>
z31licg01#
希望@gerardo能够提供一些细节,但是官方文档说元素大小没有限制:http://parquet.apache.org/documentation/latest/#types 州
文件格式所支持的类型应尽可能少,重点是这些类型对磁盘存储的影响。例如,存储格式中不明确支持16位整数,因为它们由具有高效编码的32位整数覆盖。这降低了为格式实现读写器的复杂性。类型为:-布尔:1位布尔-int32:32位有符号ints-int64:64位有符号ints-int96:96位有符号ints-浮点:ieee 32位浮点值-双精度:ieee 64位浮点值-字节数组:任意长字节数组。(我的)。还有一些附加的逻辑类型,如string、json和bson,它们基于字节数组。它们的长度应该是无限的(通过Parquet,计算机内存仍然是一个极限;-)
1条答案
按热度按时间z31licg01#
希望@gerardo能够提供一些细节,但是官方文档说元素大小没有限制:http://parquet.apache.org/documentation/latest/#types 州
类型
文件格式所支持的类型应尽可能少,重点是这些类型对磁盘存储的影响。例如,存储格式中不明确支持16位整数,因为它们由具有高效编码的32位整数覆盖。这降低了为格式实现读写器的复杂性。类型为:-布尔:1位布尔-int32:32位有符号ints-int64:64位有符号ints-int96:96位有符号ints-浮点:ieee 32位浮点值-双精度:ieee 64位浮点值-字节数组:任意长字节数组。
(我的)。还有一些附加的逻辑类型,如string、json和bson,它们基于字节数组。它们的长度应该是无限的(通过Parquet,计算机内存仍然是一个极限;-)