特别是,我想将postgres日志中的所有insert、update和delete语句推送到aws hadoop集群中,并有一个很好的方法来搜索它们以查看一行或多行的历史记录。我不是hadoopMaven,所以如果这是一个红鲱鱼让我知道。谢谢!
pinkon5k1#
使用flume将日志从rds示例发送到hadoop集群。使用flume,您可以使用regex拦截器过滤事件,只发送insert、update和delete语句。hadoop不能使您的数据可搜索,因此您必须使用solr之类的工具。您可以先将数据获取到hadoop,然后运行一堆mapreduce作业将数据插入solr。或者您可以直接配置flume将数据写入solr,请参见下面的链接。链接:使用Flume或FlumeFlume正则过滤拦截器编辑:rds示例似乎没有ssh访问权限,这意味着您不能在rds示例本身上本机运行flume,但是您必须定期手动将rds示例的日志获取到配置了flume的机器(可能是ec2示例)。
1条答案
按热度按时间pinkon5k1#
使用flume将日志从rds示例发送到hadoop集群。使用flume,您可以使用regex拦截器过滤事件,只发送insert、update和delete语句。hadoop不能使您的数据可搜索,因此您必须使用solr之类的工具。
您可以先将数据获取到hadoop,然后运行一堆mapreduce作业将数据插入solr。或者您可以直接配置flume将数据写入solr,请参见下面的链接。
链接:
使用Flume或Flume
Flume正则过滤拦截器
编辑:
rds示例似乎没有ssh访问权限,这意味着您不能在rds示例本身上本机运行flume,但是您必须定期手动将rds示例的日志获取到配置了flume的机器(可能是ec2示例)。