如何处理上传到hdfs的cvs文件的特定部分?我是hadoop新手,我有一个问题,就是我是否将关系数据库导出到cvs文件中,然后将其上载到hdfs中。所以如何使用mapreduce处理文件中的特定部分(表)。提前谢谢。
56lgkhnf1#
使用bigtable意味着将数据库转换为一个大表
uujelgoq2#
我假设rdbms表被导出为每个表的单个csv文件,并存储在hdfs中。我假设您在提到“特定部分(表)”时引用的是表中的列数据。如果是这样,请将各个csv文件放在单独的文件路径中,例如/user/username/dbname/tables/table1.csv现在,可以为输入路径和字段引用配置作业。您可以考虑使用默认的输入格式,这样您的Map器一次只能得到一行作为输入。根据配置/属性,您可以读取特定字段并处理数据。
jq6vz3qz3#
Cascading 允许您快速开始使用mapreduce。它有一个框架,允许您设置 Taps 要访问源(您的csv文件)并在管道中处理它,可以说(例如)将列a添加到列b中,并通过将它们选为 Fields
Cascading
Taps
Fields
3条答案
按热度按时间56lgkhnf1#
使用bigtable意味着将数据库转换为一个大表
uujelgoq2#
我假设rdbms表被导出为每个表的单个csv文件,并存储在hdfs中。我假设您在提到“特定部分(表)”时引用的是表中的列数据。如果是这样,请将各个csv文件放在单独的文件路径中,例如/user/username/dbname/tables/table1.csv
现在,可以为输入路径和字段引用配置作业。您可以考虑使用默认的输入格式,这样您的Map器一次只能得到一行作为输入。根据配置/属性,您可以读取特定字段并处理数据。
jq6vz3qz3#
Cascading
允许您快速开始使用mapreduce。它有一个框架,允许您设置Taps
要访问源(您的csv文件)并在管道中处理它,可以说(例如)将列a添加到列b中,并通过将它们选为Fields