我有一个在emr中运行的配置单元脚本,它在s3中从存储在s3中的~40gbgzip csv文件创建一个分区Parquet表。
脚本可以正常运行大约4个小时,但达到了一个错误点(当它刚刚完成创建Parquet地板表时非常确定)。日志显示错误为:
HiveException: Hive Runtime Error while processing row
原因:
AmazonS3Exception: Bad Request
在日志中我真的看不到更多有用的信息了。它正在从s3读取csv文件fine,并在s3 fine中创建了几个元数据文件,因此我已经确认该示例对bucket具有读/写权限。
我真的想不出还有什么其他的事情发生了,我希望在日志中有更多关于Hive对s3的“坏请求”的信息。有人有什么想法吗?
1条答案
按热度按时间xmd2e60i1#
badrequest是来自aws的一个相当无意义的响应,如果有任何原因不喜欢调用者,它就会发送这个响应。没人知道发生了什么。
asfs3a连接器的故障排除文档列出了一些原因,但它们并不完整,而且是基于对导致消息消失的原因的猜测。
如果您有失败的请求id,您可以向amazon提交一个支持请求,看看他们看到了什么。
如果这让你感觉更好的话,当我试图在一个对象存储中列出一个目录时,我看到了它,我是s3a连接器的合著者。就像我说的“猜测”。一旦你发现了,在这里添加一条评论,或者,如果它不在疑难解答文档中,就向hadoop提交一个关于这个主题的补丁。