我想坚持元组从风暴螺栓作为Parquet结构到hdfs。
1) 最好的方法是什么?
2) 我是否需要为parquet预先创建avro/protobuff模式,以便tuple可以正确地创建parquet结构?
3) 既然我想使用spark对parquet结构进行数据分析,那么我应该将parquet存储到hdfs中(因为spark可以很好地处理hdfs块)还是将parquet存储到任何文件系统(s3/googlecloud)中就可以了?
4) 这将是伟大的,如果有人可以分享风暴元组到Parquet转换的例子,因为我不熟悉任何Parquet库是兼容风暴元组。
谢谢迦腻色迦
暂无答案!
目前还没有任何答案,快来回答吧!