我的应用程序被配置为从已配置的kafka中读取一个主题,然后将转换后的结果写入hadoop hdfs。为了做到这一点,它需要在一个Yarn集群节点上启动。
为此,我们希望使用spring数据流。但是,由于这个应用程序不需要来自另一个流的任何输入(它已经知道从何处提取它的源代码),并且什么也不输出,我如何从它创建一个有效的数据流呢?换句话说,这将是一个只由一个应用程序组成的流,它应该在一个yarn节点上无限期地运行。
我的应用程序被配置为从已配置的kafka中读取一个主题,然后将转换后的结果写入hadoop hdfs。为了做到这一点,它需要在一个Yarn集群节点上启动。
为此,我们希望使用spring数据流。但是,由于这个应用程序不需要来自另一个流的任何输入(它已经知道从何处提取它的源代码),并且什么也不输出,我如何从它创建一个有效的数据流呢?换句话说,这将是一个只由一个应用程序组成的流,它应该在一个yarn节点上无限期地运行。
1条答案
按热度按时间3yhwsihp1#
在本例中,您需要一个流定义,该流定义连接到kafka中的指定目的地并写入hdfs。
例如,流将如下所示:
stream create a1 --definition ":myKafkaTopic > hdfs"
你可以阅读这里的更多信息。