在hdfs中以orc格式存储avro数据而不使用hive

gudnpqoy  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(403)

我比较了以orc和parquet格式存储avro数据,我使用“com.twitter”%”“parquet avro”%”“1.6.0”成功地将avro数据存储到parquet中,但找不到任何以orc格式存储avro数据的信息或api。
兽人只和Hive紧密相连吗?
谢谢苏巴什

tuwxkamq

tuwxkamq1#

你还没有说你在使用spark,但问题是它的标签,所以我想你是。
orc文件格式目前与spark中的hivecontext紧密相关(我认为只有1.4及更高版本才可用),但是如果您创建一个hive上下文,您应该能够以与parquet相同的方式将Dataframe写入orc文件,例如:

import org.apache.spark.sql._
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
val df = sqlContext.read.avro(("/input/path")
df.write.format("orc").save("/path/to/use")

如果您是通过spark dataframesapi读取avro数据,那么这就是您所需要的,但是hortonworks博客上有更多的细节

相关问题