在我们的存储层中,我们添加json文档并以日志结构的方式(通过parquet cpp和我们的dremel paper实现)以parquet格式存储它们,以提高写入效率。这意味着两个或多个Parquet文件中的单个documentid(documentid是列属性之一)可以有多个行条目。documentid应该是唯一的/主键。我打算通过Parquet配置单元存储处理程序以及sparksql来读取这些Parquet文件。我的问题是,有没有已知的方法来处理日志结构的Parquet地板数据?或者我需要修改Parquetmr实现来做同样的事情。
暂无答案!
目前还没有任何答案,快来回答吧!