我在be模式下运行我的flume(Flume0.9.4-cdh3u4)流,代理和收集器都在不同的机器上,都是大型ec2示例
收集器写入本地文件系统以及同一区域中的s3存储桶。
在e2e模式下配置代理时,已测试其处理4mb/s的速度,代理的采集器速度也是如此。
使用“iftop”,我注意到收集器有两个到s3的传出连接,而到s3的写吞吐量徘徊在40kb/s到50kb/s之间
使用收集器时,s3的典型写入吞吐量是多少?
我想知道是否有可能产生更多这样的线程(写入s3)来最大化示例利用率?
我该怎么做?
如果我能以另一种方式增加写吞吐量,我宁愿不要产生更多的收集器。
1条答案
按热度按时间x4shl7ld1#
你的收藏品堆起来了吗?有没有可能50kb/s是所有正在生成的数据?
你在用Flume吗?roll sink将批量数据上传到s3。较大的轧辊尺寸应能提高生产能力。