我比较了以orc和parquet格式存储avro数据,我使用“com.twitter”%”“parquet avro”%”“1.6.0”成功地将avro数据存储到parquet中,但找不到任何以orc格式存储avro数据的信息或api。兽人只和Hive紧密相连吗?谢谢苏巴什
tuwxkamq1#
你还没有说你在使用spark,但问题是它的标签,所以我想你是。orc文件格式目前与spark中的hivecontext紧密相关(我认为只有1.4及更高版本才可用),但是如果您创建一个hive上下文,您应该能够以与parquet相同的方式将Dataframe写入orc文件,例如:
import org.apache.spark.sql._ val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) val df = sqlContext.read.avro(("/input/path") df.write.format("orc").save("/path/to/use")
如果您是通过spark dataframesapi读取avro数据,那么这就是您所需要的,但是hortonworks博客上有更多的细节
1条答案
按热度按时间tuwxkamq1#
你还没有说你在使用spark,但问题是它的标签,所以我想你是。
orc文件格式目前与spark中的hivecontext紧密相关(我认为只有1.4及更高版本才可用),但是如果您创建一个hive上下文,您应该能够以与parquet相同的方式将Dataframe写入orc文件,例如:
如果您是通过spark dataframesapi读取avro数据,那么这就是您所需要的,但是hortonworks博客上有更多的细节