我有一个Kafka数据流源,其中包含ID。我还有一个数据库,其中包含了其他数据,如名称,模式,我想添加到传入的数据源。
我最初的尝试包括使用异步i/o来查询此数据的配置单元。我甚至对传入的数据设置窗口,以减少发送到数据库的查询数。不幸的是,源数据流非常大,所以我不能直接使用hive查询它,因为它会导致很多性能问题。
现在我在考虑使用hdfs中存储的数据作为Parquet文件 StreamTableSource
我可以用它来丰富 Kafka
. 所以我有几个问题要问。
这是解决这个问题的好方法吗?i、 将数据用作表源而不是异步io?
如果是的话,我应该基于窗口数据创建一个表并处理每个窗口还是有更好的方法?
暂无答案!
目前还没有任何答案,快来回答吧!