我的应用程序的日志文件在服务器上不断累积。我想通过kafka将它们转储到hdfs中。我希望kafka生产者读取日志文件,将它们发送到kafka代理,然后将这些文件移动到另一个文件夹中。kafka生产者可以读取日志文件吗?还有,Kafka制作人有没有可能有复制逻辑?
quhf5bfb1#
kafka是为支持实时日志聚合等大容量事件流而开发的。从Kafka文献中许多人使用kafka替代日志聚合解决方案。日志聚合通常从服务器收集物理日志文件,并将它们放在中心位置(可能是文件服务器或hdfs)进行处理。Kafka将文件的细节抽象出来,并将日志或事件数据作为消息流进行更清晰的抽象。这允许更低的延迟处理,更容易支持多个数据源和分布式数据消耗另外,我从这篇很好的文章中得到了一点信息,它几乎与您的用例相似如今,Kafka已经在linkedin的许多项目的制作中使用。有离线和在线两种用法。在离线情况下,我们使用kafka将所有活动事件提供给数据仓库和hadoop,然后从中运行各种批处理分析
0yg35tkg2#
如您所知,apachekafka是发布-订阅消息传递系统。您可以从应用程序发送消息。要从应用程序发送消息,可以使用kafka客户端或kafka restapi。简而言之,您可以通过应用程序读取日志,并将这些日志发送到kafka主题。要处理这些日志,可以使用apachestorm。您可以找到许多用于这些目的的集成解决方案。通过使用storm,您可以在流处理中添加任何逻辑。您可以阅读有关storm kafka集成的许多有用的详细信息。另外,为了将处理过的日志放到hdfs中,您可以轻松地将storm与hadoop集成。你可以查这个回购。
ldxq2e6h3#
Kafka将消息的提要保存在称为主题的类别中。我们将调用将消息发布到kafka主题生成器的进程。我们将调用订阅主题的进程,并处理已发布消息的提要。。kafka作为一个由一个或多个服务器组成的集群运行,每个服务器都称为代理。因此,在高层次上,生产者通过网络向Kafka集群发送消息,而Kafka集群反过来又向消费者提供如下服务:因此,这不适用于您希望输入est日志文件的应用程序。你可以试试Flume。flume是一种分布式的、可靠的、可用的服务,用于高效地收集、聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有健壮性和容错性,具有可调的可靠性机制和多种故障切换和恢复机制。它使用一个简单的可扩展数据模型,允许在线分析应用程序。
3条答案
按热度按时间quhf5bfb1#
kafka是为支持实时日志聚合等大容量事件流而开发的。从Kafka文献中
许多人使用kafka替代日志聚合解决方案。日志聚合通常从服务器收集物理日志文件,并将它们放在中心位置(可能是文件服务器或hdfs)进行处理。Kafka将文件的细节抽象出来,并将日志或事件数据作为消息流进行更清晰的抽象。这允许更低的延迟处理,更容易支持多个数据源和分布式数据消耗
另外,我从这篇很好的文章中得到了一点信息,它几乎与您的用例相似
如今,Kafka已经在linkedin的许多项目的制作中使用。有离线和在线两种用法。在离线情况下,我们使用kafka将所有活动事件提供给数据仓库和hadoop,然后从中运行各种批处理分析
0yg35tkg2#
如您所知,apachekafka是发布-订阅消息传递系统。您可以从应用程序发送消息。要从应用程序发送消息,可以使用kafka客户端或kafka restapi。
简而言之,您可以通过应用程序读取日志,并将这些日志发送到kafka主题。
要处理这些日志,可以使用apachestorm。您可以找到许多用于这些目的的集成解决方案。通过使用storm,您可以在流处理中添加任何逻辑。
您可以阅读有关storm kafka集成的许多有用的详细信息。
另外,为了将处理过的日志放到hdfs中,您可以轻松地将storm与hadoop集成。你可以查这个回购。
ldxq2e6h3#
Kafka将消息的提要保存在称为主题的类别中。
我们将调用将消息发布到kafka主题生成器的进程。
我们将调用订阅主题的进程,并处理已发布消息的提要。。
kafka作为一个由一个或多个服务器组成的集群运行,每个服务器都称为代理。
因此,在高层次上,生产者通过网络向Kafka集群发送消息,而Kafka集群反过来又向消费者提供如下服务:
因此,这不适用于您希望输入est日志文件的应用程序。你可以试试Flume。
flume是一种分布式的、可靠的、可用的服务,用于高效地收集、聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有健壮性和容错性,具有可调的可靠性机制和多种故障切换和恢复机制。它使用一个简单的可扩展数据模型,允许在线分析应用程序。