是否可以直接从文件加载Parquet表?

5q4ezhmt  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(364)

如果我有一个二进制数据文件(它可以转换成csv格式),有没有办法直接从它加载Parquet表?许多教程显示加载csv文件到文本表,然后从文本表到Parquet地板表。从效率的Angular 来看,有没有可能直接从二进制文件加载Parquet表,就像我已经有了的一样?理想情况下使用createexternaltable命令。或者我需要先把它转换成csv文件?文件格式有限制吗?

mhd8tkvw

mhd8tkvw1#

不幸的是,在impala中无法读取自定义二进制格式。您应该将文件转换为csv,然后在现有csv文件上创建一个外部表作为临时表,最后插入到从temp csv表读取的最终Parquet表中。 Impala Parquet文档有更多的信息和一些相关的例子。请参阅有关压缩小文件的部分,这与此类似。
我不知道如何将文件格式转换为csv,但您可以考虑编写一个程序将二进制格式转换为parquet。例如,可以编写mapreduce作业来编写Parquet文件。下面是一个读取和写入Parquet地板的示例:https://github.com/cloudera/parquet-examples/blob/master/mapreduce/testreadwriteparquet.java

相关问题