使用pig加载配置单元表

bhmjp9jg  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(368)

我想用Pig来装Hivetable。我想我们能挺过去 HCatLoader 但是我用xml文件来加载pig。为此,我必须使用 XMLLoader . 我可以使用两个选项在pig中加载xml文件。
我使用自己的udf从xml文件中提取数据,一旦提取了所有数据,我就必须将pig数据加载到hive表中。
我不能使用hive来提取xml数据,因为我收到的xml非常复杂,我编写了自己的udf来解析xml。任何关于如何使用pig数据加载配置单元表的建议或指针。
我在用aws。

oyxsuwqo

oyxsuwqo1#

可以使用分隔符(可以是逗号)将加载的数据存储到文本文件中,然后在配置单元中创建指向文件位置的外部表。

Create external table YOURTABLE (schema)
row format delimited
fields terminated by ','
location '/your/file/directory';
s5a0g9ez

s5a0g9ez2#

您可以使用hcatstorer将pig中的数据存储到配置单元表中。例如:

register 's3n://bucket/path/xmlUDF.jar'
xml = LOAD 's3n://bucket/pathtofiles' USING xmlUDF();
STORE xml INTO 'database.table' USING org.apache.hive.hcatalog.pig.HCatStorer();

你的问题不太清楚。您是否希望在pig中处理xml和配置单元数据,做些什么,然后将结果存储在配置单元中?只是尝试将xml数据存储在hive中并在那里使用它?

相关问题