sql server—如何使用nifi/hdf从ms sql读取增量记录

bybem2ql 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(645)

我在mssql中有一些表，这些表每秒钟都会更新一次，查询或多或少是这样的

SELECT G_ID,UpdateTime,ID,Name,T_NAME FROM TABLE1 AS table1 INNER JOIN TABLE2 AS table2 ON table1.IP=table2.ID 
WHERE table2.UpdateTime >= ${lastUpdateTime} AND table2.G_ID > ${lastID}

假设selectinnerjoin查询结果为5条记录，如下所示。
如果查询第一次运行 ${lastUpdateTime} 以及 ${lastG_ID} 设置为0，将返回5条以下的记录。处理完记录后，查询将存储 max(G_ID) i、 e.5和 max(UpdateTime) i、 e.1512010479英寸 etl_stat table。

G_ID       UpdateTime   ID            Name             T_NAME 
-------------------------------------------------------------------
 1          1512010470  12591225      DUMMY_DATA       DUMMY_ID    
 2          1512096873  12591538      DUMMY_DATA       DUMMY_ID    
 3          1512096875  12591539      DUMMY_DATA       DUMMY_ID    
 4          1512010477  12591226      DUMMY_DATA       DUMMY_ID    
 5          1512010479  12591227      DUMMY_DATA       DUMMY_ID

如表所示，再添加5条新记录：

G_ID       UpdateTime   ID            Name             T_NAME 
-------------------------------------------------------------------
 1          1512010470  12591225      DUMMY_DATA       DUMMY_ID    
 2          1512096873  12591538      DUMMY_DATA       DUMMY_ID    
 3          1512096875  12591539      DUMMY_DATA       DUMMY_ID    
 4          1512010477  12591226      DUMMY_DATA       DUMMY_ID    
 5          1512010479  12591227      DUMMY_DATA       DUMMY_ID 
 6          1512010480  12591230      DUMMY_DATA       DUMMY_ID 
 7          1512010485  12591231      DUMMY_DATA       DUMMY_ID 
 8          1512010490  12591232      DUMMY_DATA       DUMMY_ID 
 9          1512010493  12591233      DUMMY_DATA       DUMMY_ID 
 10         1512010500  12591234      DUMMY_DATA       DUMMY_ID

查询将首先读取 max(G_ID) 以及 max(UpdateTime) 从 etl_stat table 并将框架查询如下 SELECT G_ID,UpdateTime,ID,Name,T_NAME FROM TABLE1 AS table1 INNER JOIN TABLE2 AS table2 ON table1.IP=table2.ID WHERE table2.UpdateTime >= 1512010479 AND table2.G_ID > 5 ，因此查询只返回5条delta记录，如下所示。

G_ID        UpdateTime   ID            Name             T_NAME 
-------------------------------------------------------------------
 6          1512010480  12591230      DUMMY_DATA       DUMMY_ID 
 7          1512010485  12591231      DUMMY_DATA       DUMMY_ID 
 8          1512010490  12591232      DUMMY_DATA       DUMMY_ID 
 9          1512010493  12591233      DUMMY_DATA       DUMMY_ID 
 10         1512010500  12591234      DUMMY_DATA       DUMMY_ID

因此，每次运行查询时，它都应该首先读取 max(G_ID) 以及 max(UpdateTime) 从 etl_stat 表和框架中的selectinnerjoin查询，如上图所示，并获取增量更改。
使用sparksql的as-is体系结构
我实现了上述用例，如下所示：
1） spark jdbc读取phoenix表以获得 max(G_ID) 以及 max(UpdateTime) 从 etl_stat table。
2） sparkjdbc将selectinnerjoin查询框架如下 SELECT G_ID,UpdateTime,ID,Name,T_NAME FROM TABLE1 AS table1 INNER JOIN TABLE2 AS table2 ON table1.IP=table2.ID WHERE table2.UpdateTime >= 1512010479 AND table2.G_ID > 5 3） sparkjdbc运行步骤2内部连接查询，从mssqlserver读取delta消息，处理记录并插入hbase。
4）成功插入hbase后，spark更新 etl_stat 最新版本的表格 G_ID i、 e.10和 UpdateTime i、 e.1512010500。
5）此作业已安排为每1分钟运行一次。
使用nifi的准体系结构
我想将这个用例移到nifi，我想使用nifi从mssqldb读取记录并将这个记录发送给kafka。
在成功发布到kafka之后，nifi会在数据库中保存g\u id和updatetime。
消息到达kafka后，spark streaming将从kafka读取消息，并使用现有业务逻辑保存到hbase。
在每次运行时，nifi处理器都应该使用 max(G_ID) 以及 max(UpdateTime) 为了得到德尔塔的记录并出版给Kafka。
我是nifi/hdf的新手。我需要你的帮助和指导，以便使用nifi/hdf实现这一点。如果您对此用例有更好的解决方案/体系结构，请提出建议。
抱歉发了这么长的帖子。

hadoop apache-kafka sql-server apache-nifi hdf

来源：https://stackoverflow.com/questions/47591418/how-to-read-delta-records-from-ms-sql-using-nifi-hdf

1条答案

按热度按时间

f45qwnt81#

您所描述的是jdbc-kafka-connect连接器开箱即用的功能。设置你的配置文件，加载它，然后开始。完成。Kafka连接是ApacheKafka的一部分。不需要额外的工具和技术。
您可能还需要考虑适当的变更数据捕获（cdc）。对于专有的rdbms（oracle、db2、mssql等），您可以使用goldengate、attunity、dbvisit等商业工具。对于开源rdbms（例如mysql、postgresql），您应该看看开源debezium工具。所有这些cdc工具都直接与Kafka集成。

赞(0）回复(0）举报 2021-06-01

我来回答

sql server—如何使用nifi/hdf从ms sql读取增量记录

1条答案

相关问题

热门标签

最新问答