我们有我们的数据存储在Hive文本文件和Parquet文件有没有反正直接从这些加载到h2o或我们必须通过一个中间步骤,如csv或PandasDataframe?
b4wnujal1#
是的,你可以在这里找到你需要的所有信息h2o当前支持以下文件类型:csv(分隔)文件(包括gzip csv)兽人SVM灯光阿夫xls公司xlsx公司avro 1.8.0版(无多文件解析或列类型修改)parquet笔记:orc仅在h2o作为hadoop作业运行时可用。用户还可以导入以orc格式保存的配置单元文件。将并行数据导入群集时:如果数据是一个解压缩的csv文件,h2o可以进行偏移读取,因此集群中的每个节点都可以并行地直接读取csv文件的一部分。如果数据是压缩的,h2o将不得不读取整个文件并在并行读取之前解压它。因此,如果您有从hdfs读取的非常大的数据文件,最好使用解压缩csv。但是如果数据比局域网更远,那么最好使用压缩csv。
1条答案
按热度按时间b4wnujal1#
是的,你可以在这里找到你需要的所有信息
h2o当前支持以下文件类型:
csv(分隔)文件(包括gzip csv)
兽人
SVM灯光
阿夫
xls公司
xlsx公司
avro 1.8.0版(无多文件解析或列类型修改)
parquet
笔记:
orc仅在h2o作为hadoop作业运行时可用。
用户还可以导入以orc格式保存的配置单元文件。
将并行数据导入群集时:
如果数据是一个解压缩的csv文件,h2o可以进行偏移读取,因此集群中的每个节点都可以并行地直接读取csv文件的一部分。
如果数据是压缩的,h2o将不得不读取整个文件并在并行读取之前解压它。因此,如果您有从hdfs读取的非常大的数据文件,最好使用解压缩csv。但是如果数据比局域网更远,那么最好使用压缩csv。