apachenifi/hive-在hdfs中存储合并的tweet,在hive中创建表

jm81lzqq  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(299)

我要创建以下工作流:
1.使用gettwitter处理器获取tweet。
使用mergecontent进程将tweet合并到一个更大的文件中。
在hdfs中存储合并的文件。
在hadoop/hive方面,我想基于这些tweet创建一个外部表。
这里有一些示例如何做到这一点,但我缺少的是如何配置mergecontentprocessor:将什么设置为页眉、页脚和分界符。以及在Hive侧使用什么作为分隔符,以便将合并的tweet拆分成行。希望我把自己描述清楚。
提前谢谢。

ej83mcc0

ej83mcc01#

二进制模式下的mergecontent处理器可以很好地完成这项工作。不需要页眉,页脚和标界。

相关问题