在使用s3源代码运行spark作业时,以及在运行emrfs sync或emrfs import时,我不断收到不稳定错误。它运行了一段时间(增加了10624 S3键),然后就卡住了。另外,spark read不会运行,并在等待几分钟后引发不一致错误/异常。你知道为什么会这样,以及如何避免这个问题吗?
用例:从s3读取大约20tb的数据并执行排序和窗口操作。
执行的操作:
emrfs delete—要读取的元数据名称emrfsmetabl s3://bucket/prefix/
emrfs import—要读取的元数据名称emrfsmetabl s3://bucket/prefix/
尝试删除元数据表,但仍然出现不一致错误。我已经尝试过emrfs文件同步中给出的方法,但是s3不起作用
1条答案
按热度按时间k10s72fa1#
当您从s3中删除大量文件(我的文件几乎是百万个非常小的文件)时,就会出现这个问题。请使用下面的命令将文件结构的元数据与dynamodb同步。可以在url中查看其他命令
如果此问题再次出现,请创建一个新集群并删除emrfs dynamodb表。这解决了我的问题