如何处理上传到hdfs的cvs文件的特定部分？

neekobn8 于 2021-06-03 发布在 Hadoop

关注(0)|答案(3)|浏览(423)

如何处理上传到hdfs的cvs文件的特定部分？我是hadoop新手，我有一个问题，就是我是否将关系数据库导出到cvs文件中，然后将其上载到hdfs中。所以如何使用mapreduce处理文件中的特定部分（表）。提前谢谢。

hadoop hadoop-partitioning hadoop-streaming

来源：https://stackoverflow.com/questions/16064121/how-to-work-on-specific-part-of-cvs-file-uploaded-into-hdfs

3条答案

按热度按时间

56lgkhnf1#

使用bigtable意味着将数据库转换为一个大表

赞(0）回复(0）举报 2021-06-03

uujelgoq2#

我假设rdbms表被导出为每个表的单个csv文件，并存储在hdfs中。我假设您在提到“特定部分（表）”时引用的是表中的列数据。如果是这样，请将各个csv文件放在单独的文件路径中，例如/user/username/dbname/tables/table1.csv
现在，可以为输入路径和字段引用配置作业。您可以考虑使用默认的输入格式，这样您的Map器一次只能得到一行作为输入。根据配置/属性，您可以读取特定字段并处理数据。

赞(0）回复(0）举报 2021-06-03

jq6vz3qz3#

Cascading 允许您快速开始使用mapreduce。它有一个框架，允许您设置 Taps 要访问源（您的csv文件）并在管道中处理它，可以说（例如）将列a添加到列b中，并通过将它们选为 Fields

赞(0）回复(0）举报 2021-06-03