我应该经常在红移时使用unload命令吗?

xghobddn  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(402)

我们目前正在使用etl工具(通过hadoop)为非技术用户创建一个包含原始数据的csv文件。dev根据需要为他们创建一个流程,然后他们按需运行。因为我们使用数据湖文件(s3)来创建输出,所以我们需要将所有事实连接在一起,并运行一些hadoop需要一段时间才能完成的繁重任务。
我们希望这些进程在更短的时间内运行。我的想法是使用unload命令实现这个任务的红移。由于redshift中的数据已经根据业务需求构建,因此通常只需非常简单的查询即可获得所需的数据,运行时间为2-5分钟。
但是,我不确定是否给我们的用户一个按需运行unload命令的选项(不是自己,通过构建过程),可能会导致红移。
有人能提供一些信息吗。我们预计每天约有20个查询,时间为2-4分钟。
谢谢
近红外

lztngnrs

lztngnrs1#

它的要求并不比其他任何选择都高。我建议您为这些用户定义一个特定的wlm队列。这样您就可以限制他们使用的资源量,并将他们对系统其他部分的影响隔离开来。

hzbexzde

hzbexzde2#

我每天运行数百次卸载(将红移数据发送到外部api)或备份、恢复或深度复制表。我从来没有遇到过问题。
性能似乎与等效的select相同(如果使用压缩,性能会更高一些)

相关问题