我们计划实施 data projection layer
只选择 subset
从一组字段中提取字段数据,减少发送到Map的数据量,减少处理。 Question
:此方法是否将提高map reduce作业的性能?与仅选择特定字段相比,使用 subString()
在mapper里?不过,这肯定会节省存储空间。
我们将用一些样本数据来测试它,但从技术上讲,建议是什么?hadoop自己处理吗?
例子:
输入数据: sensor_id, location, day, time, month, year, temperature, humidity, quality, wind_direction, wind_velocity
投影输出: year, temperature
任何帮助都将不胜感激。
暂无答案!
目前还没有任何答案,快来回答吧!