avro格式在hadoop中用作头文件来描述后面二进制文件的内容。我的问题是avro文件的json部分是否可以扩展到包含hadoop不需要的信息?典型的用例是将元数据(如文件的发起人和日期)附加到文件中,而不需要将其作为数据和文件的一部分。
fhg3lkii1#
对。avro文件可以用json模式中的附加信息或特定的附加信息进行注解name:value pairs. 此外,我们还可以通过pentaho和google big query读取这些avro文件。一个警告是模式和name:value pairs 在导入过程中被丢弃。因此,如果您觉得以后需要它们,您应该提取并存储它们的本地副本。
1条答案
按热度按时间fhg3lkii1#
对。avro文件可以用json模式中的附加信息或特定的附加信息进行注解name:value pairs. 此外,我们还可以通过pentaho和google big query读取这些avro文件。一个警告是模式和name:value pairs 在导入过程中被丢弃。因此,如果您觉得以后需要它们,您应该提取并存储它们的本地副本。