Kafka与aws胶水

4sup72z8 于 2021-06-07 发布在 Kafka

关注(0)|答案(2)|浏览(360)

我们有一个kafka服务在aws上运行，并计划使用athena/s3长期存储我们的分析数据。有没有可能使用带有aws胶水服务的kafka来读取kafka并存储在s3中？

apache-kafka aws-glue amazon-web-services

来源：https://stackoverflow.com/questions/49222004/kafka-with-aws-glue

2条答案

按热度按时间

92dk7w1h1#

最好的办法是使用来自confluent的开源kafka connector for s3，因为即使服务出现故障并重新启动，它也能保证只向s3写入一次。这也是一个实时流之间的集成，所以数据立即写入s3没有额外的延迟。
文件在这里：
https://docs.confluent.io/current/connect/connect-storage-cloud/kafka-connect-s3/docs/s3_connector.html
源代码位于github上：
https://github.com/confluentinc/kafka-connect-storage-cloud
docker图片：
https://hub.docker.com/r/confluentinc/cp-kafka-connect/
可执行包和tarball下载：
https://www.confluent.io/download/
kafka sink connector for s3是使用官方的apache kafka connect api编写的，因此它在标准的connect分布式worker容器中运行，并且可以通过kafka的分区和并行消耗水平地放大/缩小任务或示例的数量，以获得高吞吐量。

赞(0）回复(0）举报 2021-06-07

mkshixfv2#

我同意Kafka连接s3。如果您想对表做些什么，请查看k个表并在kafka中执行此操作，那么您仍然可以使用kafk connect移动到s3。如果将此作为etl的一部分，您可能还需要重新考虑您的etl工具，或者添加到您的工具集中并使用databricks。

赞(0）回复(0）举报 2021-06-07