验证摄取数据的最佳方法

wmvff8tz  于 2021-06-01  发布在  Hadoop
关注(0)|答案(0)|浏览(236)

我每天从各种外部源(如ga、scrapers、googlebq等)获取数据。我将创建的csv文件存储到hdfs中,从中创建stage表,然后在hadoop中将其附加到历史表中。你能分享一些如何用历史数据验证新数据的最佳实践吗?例如,将实际数据的行数与过去10天的平均值进行比较。spark什么的有没有准备好的溶液?
谢谢你的建议。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题