我遇到了一些数据删除问题,因为我们已经从cdh迁移到hdp(spark 2.2到2.3)。这些表是从hdfs位置读取的,在运行读取和处理这些表的spark作业一段时间后,它抛出table not found异常,当我们检查该位置时,所有记录都消失了。在我的spark(java)代码中,在读取该表之前,调用了clearcache()。它能删除那些文件吗?如果是,如何修复?
我遇到了一些数据删除问题,因为我们已经从cdh迁移到hdp(spark 2.2到2.3)。这些表是从hdfs位置读取的,在运行读取和处理这些表的spark作业一段时间后,它抛出table not found异常,当我们检查该位置时,所有记录都消失了。在我的spark(java)代码中,在读取该表之前,调用了clearcache()。它能删除那些文件吗?如果是,如何修复?
1条答案
按热度按时间r9f1avp51#
我认为,您应该看看源代码—spark有自己的缓存用户数据的实现,并且在通过cachemanager管理此缓存时从不删除相同的数据。再见