我可以直接从hive表拉数据到h2o吗？

oxf4rvwz 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(478)

我们有我们的数据存储在Hive文本文件和Parquet文件有没有反正直接从这些加载到h2o或我们必须通过一个中间步骤，如csv或PandasDataframe？

hadoop Hive H2O

来源：https://stackoverflow.com/questions/48915519/can-i-pull-data-directly-from-hive-table-to-h2o

1条答案

按热度按时间

b4wnujal1#

是的，你可以在这里找到你需要的所有信息
h2o当前支持以下文件类型：
csv（分隔）文件（包括gzip csv）
兽人
SVM灯光
阿夫
xls公司
xlsx公司
avro 1.8.0版（无多文件解析或列类型修改）
parquet
笔记：
orc仅在h2o作为hadoop作业运行时可用。
用户还可以导入以orc格式保存的配置单元文件。
将并行数据导入群集时：
如果数据是一个解压缩的csv文件，h2o可以进行偏移读取，因此集群中的每个节点都可以并行地直接读取csv文件的一部分。
如果数据是压缩的，h2o将不得不读取整个文件并在并行读取之前解压它。因此，如果您有从hdfs读取的非常大的数据文件，最好使用解压缩csv。但是如果数据比局域网更远，那么最好使用压缩csv。

赞(0）回复(0）举报 2021-05-29

我来回答

我可以直接从hive表拉数据到h2o吗？

1条答案

相关问题

热门标签

最新问答