找不到此特定集成的任何特定组。
我在一家零售机构工作,试图将Kafka流与胶水直接整合。我的意思是把Kafka主题作为aws胶水的输入源。我使用的是ApacheKafka2.12。
如果有人研究过这种集成模式,我会到这个小组寻求帮助。我在集成测试中遇到的问题如下
1) 当我在aws glue console中创建到kafka的连接时,aws glue console上的“test connection”选项被禁用(灰显)。所以不确定我创建的连接是否正常。
2) 在我的设置中,输入源是kafka/topic,其中包含json格式的消息。我将目标保持为s3/csv格式,并在源和目标之间默认Map字段。我选择sparkstreaming作为工作类型。
主要问题是aws胶水作业连续运行数小时,但不产生任何输出。似乎job/pyspark脚本无法读取Kafka的内容。即使在日志中,我也不知道它是否连接到Kafka服务器
3) 当使用kafka流作为aws glue的输入源时,需要手动创建aws glue数据库中的表/模式。但是我不确定表模式是否正确创建,正如我在作业日志中注意到的(isregisteredwithlf:false)
2020-05-29 09:46:34047信息[thread-9]glue.gluecontext(gluecontext。scala:getcatalogsource(176))-getcatalogsource:catalogid:null,命名空间:poc glue athena database,表名:kafka\u stream,isregisteredwithlf:false
4) 有没有人可以确认,如果aws胶水作业使用ksql(一个Kafka组件)为任何内部。对于kafka中的端口8088(我想它是用于ksql服务器的),我收到了下面的警告。我可以理解这一点-为什么会这样,因为我还没有在我的设置中设置ksql示例。既然这是一个警告-我想这应该不是一个大问题的aws胶水工作不工作。2020-05-29 09:46:36,201警告[thread-9]client.yarnclient(yarnclient。java:makerestapirequest(66))-获取url的请求失败http://0.0.0.0:8088/ws/v1/cluster/apps/application\u 1590745365782\u 0001 com.amazon.ws.emr.hadoop.fs.shaded.org.apache.http.conn.httphostconnectexception:连接到0.0.0:8088[/0.0.0.0]失败:连接被拒绝(连接(拒绝)
向桑耶夫问好
暂无答案!
目前还没有任何答案,快来回答吧!