我想用Pig来装Hivetable。我想我们能挺过去 HCatLoader 但是我用xml文件来加载pig。为此,我必须使用 XMLLoader . 我可以使用两个选项在pig中加载xml文件。我使用自己的udf从xml文件中提取数据,一旦提取了所有数据,我就必须将pig数据加载到hive表中。我不能使用hive来提取xml数据,因为我收到的xml非常复杂,我编写了自己的udf来解析xml。任何关于如何使用pig数据加载配置单元表的建议或指针。我在用aws。
HCatLoader
XMLLoader
oyxsuwqo1#
可以使用分隔符(可以是逗号)将加载的数据存储到文本文件中,然后在配置单元中创建指向文件位置的外部表。
Create external table YOURTABLE (schema) row format delimited fields terminated by ',' location '/your/file/directory';
s5a0g9ez2#
您可以使用hcatstorer将pig中的数据存储到配置单元表中。例如:
register 's3n://bucket/path/xmlUDF.jar' xml = LOAD 's3n://bucket/pathtofiles' USING xmlUDF(); STORE xml INTO 'database.table' USING org.apache.hive.hcatalog.pig.HCatStorer();
你的问题不太清楚。您是否希望在pig中处理xml和配置单元数据,做些什么,然后将结果存储在配置单元中?只是尝试将xml数据存储在hive中并在那里使用它?
2条答案
按热度按时间oyxsuwqo1#
可以使用分隔符(可以是逗号)将加载的数据存储到文本文件中,然后在配置单元中创建指向文件位置的外部表。
s5a0g9ez2#
您可以使用hcatstorer将pig中的数据存储到配置单元表中。例如:
你的问题不太清楚。您是否希望在pig中处理xml和配置单元数据,做些什么,然后将结果存储在配置单元中?只是尝试将xml数据存储在hive中并在那里使用它?