nifi和kafka现在都可以在cloudera数据平台cdp公共云中使用。nifi擅长与任何事物交谈,而Kafka是一种主流的信息总线,我只是想知道:
在cdp公共云中,从apachenifi向kafka生成/消费数据需要哪些最小的步骤
我会理想地寻找在任何云环境下都能工作的步骤,例如amazonaws和microsoftazure。
我对遵循最佳实践并使用平台默认配置的答案感到满意,但如果有常见的替代方案,也欢迎使用。
nifi和kafka现在都可以在cloudera数据平台cdp公共云中使用。nifi擅长与任何事物交谈,而Kafka是一种主流的信息总线,我只是想知道:
我会理想地寻找在任何云环境下都能工作的步骤,例如amazonaws和microsoftazure。
我对遵循最佳实践并使用平台默认配置的答案感到满意,但如果有常见的替代方案,也欢迎使用。
1条答案
按热度按时间mrphzbgm1#
将来会有多个可用的形状因子,现在我假设您的环境包含一个带有nifi的datahub和一个带有kafka的datahub(如果两者都在同一个数据集线器上,答案仍然有效。
先决条件
具有nifi和kafka的数据中心
访问这些文件的权限(例如,添加处理器、创建Kafka主题)
了解您的工作负载用户名(cdp管理控制台>单击您的名称(左下)>单击配置文件)
您应该在同一位置设置工作负载密码
这些步骤允许您在cdp公共云中生成从nifi到kafka的数据
除非另有说明,否则我将所有内容都保留为其默认设置。
在kafka数据中心集群中:
收集代理的fqdn链接和使用的端口。
如果您有streams消息传递管理器:请转到brokers选项卡以查看fqdn和端口已经在一起
如果无法使用streams消息传递管理器:请使用kafka转到数据中心的“硬件”选项卡,并获取相关节点的fqdn(目前称之为经纪人)。然后在每个端口后面加上:portnumber。默认端口为9093。
按以下格式组合链接:fqdn:port,fqdn:port,fqdn:port it 现在应该是这样的:
broker1.:9093,broker2.:9093,broker3.:9093
在nifi gui中:确保nifi中有一些数据要生成,例如使用
GenerateFlowFile
处理器例如,选择要写入Kafka的相关处理器
PublishKafka_2_0
,配置如下:设置
自动终止关系:勾选成功和失败
属性
Kafka经纪人:我们之前创建的综合名单
安全协议:sasl\u ssl
sasl机构:普通
ssl上下文服务:默认nifissl上下文服务
用户名:您的工作负载用户名(请参阅上面的先决条件)
密码:您的工作负载密码
主题名称:丹尼斯
使用事务:false
最大元数据等待时间:30秒
连接您的
GenerateFlowFile
处理器到您的PublishKafka_2_0
并启动流程这些是最简单的步骤,更广泛的解释可以在cloudera文档中找到。请注意,显式地创建主题是最佳实践(这个示例利用了kafka的特性,它可以在生成主题时自动创建主题)。
这些步骤允许您在cdp公共云中使用来自kafka的nifi数据
一个很好的检查,看看数据是否写入Kafka,是消费它再次。
在nifi gui中:
例如,创建一个Kafka消费处理器
ConsumeKafka_2_0
,按如下方式配置其属性:kafka代理、安全协议、sasl机制、ssl上下文服务、用户名、密码、主题名:与上面的生产者示例相同
消费群体:1
偏移重置:最早
创建另一个处理器或漏斗以将消息发送到,然后启动消耗处理器。
也就是说,在30秒内,你应该会看到你发布给Kafka的数据现在又流入了nifi。
充分披露:我是cloudera的员工,nifi的驱动力。