我有一些Parquet文件,我想推到红移。我不太熟悉parquet模式,但是我已经使用parquet tools schema cli命令来获取列名。这对我所拥有的一些Parquet来说是有效的,因为我已经能够成功地将命令复制到我使用的模式设置的redshift表中:parquet tools schema。
然而,当parquet有“重复组列表”时,我在创建合适的表来存放parquet中的数据时遇到了麻烦。我所做的一切都导致copy命令失败,因此任何帮助都将不胜感激,谢谢!以下是我的Parquet文件模式的输出:
message spark_schema {
optional binary guid (UTF8);
optional binary orgName (UTF8);
optional binary isOrgAuthoritative (UTF8);
optional binary degree (UTF8);
optional binary degreeGuid (UTF8);
optional binary graduationDate (UTF8);
optional group academicHonors (LIST) {
repeated group list {
optional group element {
optional binary honor (UTF8);
optional binary honorGuid (UTF8);
optional binary startDate (UTF8);
optional binary endDate (UTF8);
optional binary isStartDateComputed (UTF8);
optional binary isEndDateComputed (UTF8);
optional binary reportedDate (UTF8);
}
}
}
optional binary startDate (UTF8);
optional binary endDate (UTF8);
optional binary isStartDateComputed (UTF8);
optional binary isEndDateComputed (UTF8);
optional binary reportedDate (UTF8);
}
暂无答案!
目前还没有任何答案,快来回答吧!