在amazonemr中使用配置单元写入amazons3存储桶时处理s3put通知

92dk7w1h 于 2021-06-28 发布在 Hive

关注(0)|答案(1)|浏览(365)

我有一个Hive脚本如下所示：
导入时跳过csv中的标题

SET skip.header.line.count = 1;

创建cac表

CREATE EXTERNAL TABLE channelAccessCodes (accessCode string,channelCode string,id string,upc string,version bigint)
STORED BY 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler' 
TBLPROPERTIES ("dynamodb.table.name" = "properties.channelAccessCode", 
"dynamodb.column.mapping" = "accessCode:accessCode,channelCode:channelCode,id:id,upc:upc,version:version"); 

CREATE TEMPORARY TABLE if not exists bdc (id STRING,name STRING,address STRING,zip STRING,city_hotel STRING,cc1 STRING,ufi STRING,class STRING,currencycode STRING,minrate STRING,maxrate STRING,preferred STRING,nr_rooms STRING,longitude STRING,latitude STRING,public_ranking STRING,hotel_url STRING,photo_url STRING,desc_en STRING,desc_fr STRING,desc_es STRING,desc_de STRING,desc_nl STRING,desc_it STRING,desc_pt STRING,desc_ja STRING,desc_zh STRING,desc_pl STRING,desc_ru STRING,desc_sv STRING,desc_ar STRING,desc_el STRING,desc_no STRING,city_unique STRING,city_preferred STRING,continent_id STRING,review_score STRING,review_nr STRING)
ROW FORMAT DELIMITED fields terminated by '\t' lines terminated by '\n'
stored as textfile
LOCATION 's3://properties-uat-imports/input/BDC'
tblproperties("skip.header.line.count"="1");

CREATE TEMPORARY TABLE TempTableDeletes(ChannelAccessCode STRING)
ROW FORMAT DELIMITED fields terminated by '|' lines terminated by '\n';

INSERT INTO TABLE TempTableDeletes SELECT channelAccessCodes.id FROM channelAccessCodes LEFT JOIN bdc ON channelAccessCodes.id = CONCAT('BDC',bdc.id)  WHERE CONCAT('BDC',bdc.id) IS NULL AND channelAccessCodes.id LIKE 'BDC%';

部分-将所选数据写入s3

create external table s3_export_deletes(ChannelAccessCode STRING)
row format delimited lines terminated by '\n'
stored as textfile
LOCATION 's3://properties-uat-imports-emr/';

写作

INSERT OVERWRITE TABLE s3_export_deletes SELECT * from TempTableDeletes;

它基本上是从dynamo表中读取数据，然后从s3中读取一个文件……在输出表中做一些小动作，然后将该表写入s3存储桶。
当这个配置单元脚本在emr上运行时，它会将一个文件写入s3。我在这个bucket上配置了一个通知，每当bucket上收到put通知时，就会向sqs队列发送一条消息。我只希望有一个通知，但似乎有多个（准确地说是6）？
有人知道这是为什么吗？有没有可能强制hive只对s3 bucket进行一次调用？
谢谢，
克里斯

Hive amazon-s3 amazon-web-services emr

来源：https://stackoverflow.com/questions/41701640/handling-s3-put-notifications-when-writing-to-an-amazon-s3-bucket-with-hive-insi