我在hdfs中有一个目录 .csv 具有固定结构和列名的文件将在每天结束时转储,如下所示:我有一个配置单元表,它应该在每天开始时添加新数据,其中包含来自 .csv 前一天的 .csv 文件。我如何做到这一点。
.csv
mlnl4t2r1#
在hdfs中在该目录上构建配置单元表。新文件将转储到表位置后,从该表中选择将拾取新文件。我建议更改转储文件以写入日期子文件夹的过程,并按日期创建分区表。在此之后,您只需在选择表之前运行recover partitions命令。
uxh89sit2#
我可以建议使用cron jobs。创建一个更新表的脚本,然后配置一个cron作业,在一天中的某个特定时间(对于您的情况是在一天的开始)执行该脚本,然后表将自动更新。ps:这个解决方案只能在您的服务器投入生产时应用,我的意思是cron作业应该在运行24/24的服务器中使用,否则,您应该使用anacron。
2条答案
按热度按时间mlnl4t2r1#
在hdfs中在该目录上构建配置单元表。新文件将转储到表位置后,从该表中选择将拾取新文件。我建议更改转储文件以写入日期子文件夹的过程,并按日期创建分区表。在此之后,您只需在选择表之前运行recover partitions命令。
uxh89sit2#
我可以建议使用cron jobs。创建一个更新表的脚本,然后配置一个cron作业,在一天中的某个特定时间(对于您的情况是在一天的开始)执行该脚本,然后表将自动更新。
ps:这个解决方案只能在您的服务器投入生产时应用,我的意思是cron作业应该在运行24/24的服务器中使用,否则,您应该使用anacron。