我正试图上传一个有趣的数据集,我在kaggle.com/datasets上找到了这个数据集,它包含在一个名为“来自交叉验证堆栈交换的问题”的文件夹中(特别是在这里找到的文件“questions.csv”:https://www.kaggle.com/stackoverflow/statsquestions)到cloudera的色调,以便我可以使用hive来查询数据。
但是,我在选择分隔符以正确上载.csv时遇到问题。我看不到一个地方来选择一个文本限定符,转义字符等。
我使用的是oracle virtualbox vm linux box,下载自:https://www.virtualbox.org/wiki/downloads
我使用hadoop的cloudera发行版访问hue:https://www.cloudera.com/downloads/quickstart_vms/5-8.html 我特别使用hue上的metastore管理器来尝试上传questions.csv数据文件。
对于上传/导入这样的.csv文件的任何帮助都将不胜感激。
1条答案
按热度按时间s8vozzvw1#
您可以首先使用以下参数创建一个表:
中有关配置单元表创建的详细信息https://cwiki.apache.org/confluence/display/hive/languagemanual+ddl#languagemanualddl-createTable创建/删除/截断表
然后,您必须将csv文件上载到hdfs文件夹中并使用:
我发现使用hue将csv文件转换成表是最简单的方法。