我有一个用例,我必须在hdfs中传输一百万个或更多的文件。文件大小可以从10kb到50kb不等。我正在使用spool dir源和hdfs接收器以及文件通道。我也使用blob反序列化程序,因为我不想破坏我的源数据。它应该得到传输完整的文件作为一个事件,我可以实现。到目前为止,我的flume代理设计看起来像这样-我的flume代理设计但我还是没能取得好成绩。我还想了解hadoop集群的配置是否有助于提高性能?
bybem2ql1#
好吧,性能调整没有灵丹妙药。像往常一样,您需要根据您的数据和基础设施进行实验和学习。以下文章讨论了可用于微调Flume性能的各种旋钮(和一般指南):cloudera-Flume性能调优、dzone-Flume性能调优
1条答案
按热度按时间bybem2ql1#
好吧,性能调整没有灵丹妙药。像往常一样,您需要根据您的数据和基础设施进行实验和学习。以下文章讨论了可用于微调Flume性能的各种旋钮(和一般指南):cloudera-Flume性能调优、dzone-Flume性能调优