如何处理上传到hdfs的cvs文件的特定部分?

neekobn8  于 2021-06-03  发布在  Hadoop
关注(0)|答案(3)|浏览(423)

如何处理上传到hdfs的cvs文件的特定部分?我是hadoop新手,我有一个问题,就是我是否将关系数据库导出到cvs文件中,然后将其上载到hdfs中。所以如何使用mapreduce处理文件中的特定部分(表)。提前谢谢。

56lgkhnf

56lgkhnf1#

使用bigtable意味着将数据库转换为一个大表

uujelgoq

uujelgoq2#

我假设rdbms表被导出为每个表的单个csv文件,并存储在hdfs中。我假设您在提到“特定部分(表)”时引用的是表中的列数据。如果是这样,请将各个csv文件放在单独的文件路径中,例如/user/username/dbname/tables/table1.csv
现在,可以为输入路径和字段引用配置作业。您可以考虑使用默认的输入格式,这样您的Map器一次只能得到一行作为输入。根据配置/属性,您可以读取特定字段并处理数据。

jq6vz3qz

jq6vz3qz3#

Cascading 允许您快速开始使用mapreduce。它有一个框架,允许您设置 Taps 要访问源(您的csv文件)并在管道中处理它,可以说(例如)将列a添加到列b中,并通过将它们选为 Fields

相关问题