我有几个任务,我正在执行的aws电子病历不共享数据,我想使用相同的电子病历来执行他们一个接一个。有没有办法将正在运行的emr清除回其初始状态(删除配置单元表、清除所有hdfs文件等)避免数据冲突?我想重用emr有几个原因:创建新的电子病历可能需要5-10分钟。我的任务比较短,20-25分钟。一旦创建了电子病历,您就已经支付了整整一个小时的费用。
jv4diomz1#
我们没有找到一个“快速而干净”的api来实现这种行为。相反,我们整合了一个简单的工作方法来保证我们可以清理所有的数据。我们使用特定的数据库而不是默认的数据库。我们将所有内部数据文件放在hdfs中的特定位置。因此,每次任务启动时,它首先删除这个特定的数据库(如果存在),然后重新创建它,并递归地删除hdfs中特定位置下的所有数据。
1条答案
按热度按时间jv4diomz1#
我们没有找到一个“快速而干净”的api来实现这种行为。相反,我们整合了一个简单的工作方法来保证我们可以清理所有的数据。
我们使用特定的数据库而不是默认的数据库。
我们将所有内部数据文件放在hdfs中的特定位置。
因此,每次任务启动时,它首先删除这个特定的数据库(如果存在),然后重新创建它,并递归地删除hdfs中特定位置下的所有数据。