在hdfs中以orc格式存储avro数据而不使用hive

gudnpqoy 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(402)

我比较了以orc和parquet格式存储avro数据，我使用“com.twitter”%”“parquet avro”%”“1.6.0”成功地将avro数据存储到parquet中，但找不到任何以orc格式存储avro数据的信息或api。
兽人只和Hive紧密相连吗？
谢谢苏巴什

hadoop avro apache-spark orc

来源：https://stackoverflow.com/questions/34267323/storing-avro-data-in-orc-format-in-hdfs-with-out-using-hive

1条答案

按热度按时间

tuwxkamq1#

你还没有说你在使用spark，但问题是它的标签，所以我想你是。
orc文件格式目前与spark中的hivecontext紧密相关（我认为只有1.4及更高版本才可用），但是如果您创建一个hive上下文，您应该能够以与parquet相同的方式将Dataframe写入orc文件，例如：

import org.apache.spark.sql._
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
val df = sqlContext.read.avro(("/input/path")
df.write.format("orc").save("/path/to/use")

如果您是通过spark dataframesapi读取avro数据，那么这就是您所需要的，但是hortonworks博客上有更多的细节

赞(0）回复(0）举报 2021-06-02

我来回答

在hdfs中以orc格式存储avro数据而不使用hive

1条答案

相关问题

热门标签

最新问答