我要创建以下工作流:1.使用gettwitter处理器获取tweet。使用mergecontent进程将tweet合并到一个更大的文件中。在hdfs中存储合并的文件。在hadoop/hive方面,我想基于这些tweet创建一个外部表。这里有一些示例如何做到这一点,但我缺少的是如何配置mergecontentprocessor:将什么设置为页眉、页脚和分界符。以及在Hive侧使用什么作为分隔符,以便将合并的tweet拆分成行。希望我把自己描述清楚。提前谢谢。
ej83mcc01#
二进制模式下的mergecontent处理器可以很好地完成这项工作。不需要页眉,页脚和标界。
1条答案
按热度按时间ej83mcc01#
二进制模式下的mergecontent处理器可以很好地完成这项工作。不需要页眉,页脚和标界。