emrfs同步和导入被卡住并且无法工作

zhte4eai  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(263)

在使用s3源代码运行spark作业时,以及在运行emrfs sync或emrfs import时,我不断收到不稳定错误。它运行了一段时间(增加了10624 S3键),然后就卡住了。另外,spark read不会运行,并在等待几分钟后引发不一致错误/异常。你知道为什么会这样,以及如何避免这个问题吗?
用例:从s3读取大约20tb的数据并执行排序和窗口操作。
执行的操作:
emrfs delete—要读取的元数据名称emrfsmetabl s3://bucket/prefix/
emrfs import—要读取的元数据名称emrfsmetabl s3://bucket/prefix/
尝试删除元数据表,但仍然出现不一致错误。我已经尝试过emrfs文件同步中给出的方法,但是s3不起作用

k10s72fa

k10s72fa1#

当您从s3中删除大量文件(我的文件几乎是百万个非常小的文件)时,就会出现这个问题。请使用下面的命令将文件结构的元数据与dynamodb同步。可以在url中查看其他命令

emrfs sync s3://elasticmapreduce/samples/cloudfront

如果此问题再次出现,请创建一个新集群并删除emrfs dynamodb表。这解决了我的问题

相关问题