今天我和同事发现我们无法访问hadoop服务器上的表—我们无法在HiveSQL中对表执行查询,也无法将表提取到rstudio服务器。我们的数据管理人员说,有时会发生这种情况,表会“损坏”。它是纯粹随机的(一个杂散的宇宙射线?),还是有工程或用户相关的问题要归咎于损坏的表?
xwmevbvl1#
虽然这个问题是通用的,但腐败的原因可能会因用例的不同而不同。我遇到的一些原因是,由于对数据库执行任何操作,配置单元元存储数据库中表的元数据被覆盖、编辑或丢失。这本质上意味着,我们不能对特定的表或表组执行任何查询。hdfs中配置单元表的实际数据已损坏。虽然达到这一点的可能性非常低(由于集群中的数据复制),但如果表文件的一个128MB块损坏,则仍然有可能无法读取数据。这将导致查询返回部分数据或没有数据。这可以是特定于硬件的。
1条答案
按热度按时间xwmevbvl1#
虽然这个问题是通用的,但腐败的原因可能会因用例的不同而不同。我遇到的一些原因是,
由于对数据库执行任何操作,配置单元元存储数据库中表的元数据被覆盖、编辑或丢失。这本质上意味着,我们不能对特定的表或表组执行任何查询。
hdfs中配置单元表的实际数据已损坏。虽然达到这一点的可能性非常低(由于集群中的数据复制),但如果表文件的一个128MB块损坏,则仍然有可能无法读取数据。这将导致查询返回部分数据或没有数据。这可以是特定于硬件的。