上传/导入色调的.csv-指定正确的分隔符等

z9smfwbn  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(424)

我正试图上传一个有趣的数据集,我在kaggle.com/datasets上找到了这个数据集,它包含在一个名为“来自交叉验证堆栈交换的问题”的文件夹中(特别是在这里找到的文件“questions.csv”:https://www.kaggle.com/stackoverflow/statsquestions)到cloudera的色调,以便我可以使用hive来查询数据。
但是,我在选择分隔符以正确上载.csv时遇到问题。我看不到一个地方来选择一个文本限定符,转义字符等。
我使用的是oracle virtualbox vm linux box,下载自:https://www.virtualbox.org/wiki/downloads
我使用hadoop的cloudera发行版访问hue:https://www.cloudera.com/downloads/quickstart_vms/5-8.html 我特别使用hue上的metastore管理器来尝试上传questions.csv数据文件。
对于上传/导入这样的.csv文件的任何帮助都将不胜感激。

s8vozzvw

s8vozzvw1#

您可以首先使用以下参数创建一个表:

CREATE TABLE databaseXX.tableXX (column1 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

中有关配置单元表创建的详细信息https://cwiki.apache.org/confluence/display/hive/languagemanual+ddl#languagemanualddl-createTable创建/删除/截断表
然后,您必须将csv文件上载到hdfs文件夹中并使用:

LOAD DATA INPATH '/tmp/myCsvFile' 
 OVERWRITE INTO TABLE databaseXX.tableXX;

我发现使用hue将csv文件转换成表是最简单的方法。

相关问题