我想实现hadoopmapreduce,并使用csv文件作为输入。所以,我想问,hadoop提供了什么方法来获取csv文件的值,或者我们只是用java的split string函数来实现?谢谢大家。。。。。
qni6mghb1#
默认情况下,hadoop使用文本输入读取器,从输入文件逐行向Map器提供信息。Map器中的关键是读取的行数。但是要小心csv文件,因为单个列/字段可能包含换行符。您可能需要寻找如下csv输入读取器:https://github.com/mvallebr/csvinputformat/blob/master/src/main/java/org/apache/hadoop/mapreduce/lib/input/csvnlineinputformat.java但是,您必须在代码中拆分行。
1条答案
按热度按时间qni6mghb1#
默认情况下,hadoop使用文本输入读取器,从输入文件逐行向Map器提供信息。Map器中的关键是读取的行数。但是要小心csv文件,因为单个列/字段可能包含换行符。您可能需要寻找如下csv输入读取器:
https://github.com/mvallebr/csvinputformat/blob/master/src/main/java/org/apache/hadoop/mapreduce/lib/input/csvnlineinputformat.java
但是,您必须在代码中拆分行。