如何为MapReduceHadoop处理多行csv输入文件?

h7appiyu  于 2021-05-30  发布在  Hadoop
关注(0)|答案(0)|浏览(281)

我有csv输入数据文件,其中有几个记录。每条记录由任意数量的行组成(1行、2行、5行或任意)。可以肯定的是,每条记录有24个字段,用“:”分隔。每一条记录从一个新行开始,但每一新行不是一条新记录。
默认记录读取器对此问题失败,因为每个新行都不是新记录。

**如何处理输入拆分。有可能记录三行,一行在一个块中,另两行在另一个块中?

在将记录作为map方法的输入提供之前,我应该如何区分它们**
我相信这和输入格式和记录阅读器有关。如有任何建议和帮助,我们将不胜感激。
以下是示例数据:
审阅\u id::文本::商业\u id::完整\u地址::学校::经度::平均值\u星星::日期::用户\u id::开放::类别::照片\u url::城市::审阅\u计数::名称::社区::url::投票。酷::投票。搞笑::州::星星::纬度::类型::投票。有用
楠::楠::楠::楠::楠::楠::3.5::楠::cxint2yc tuygwkpekauew::楠::楠::楠::楠::8::简a.::楠:::http://www.yelp.com/user_details?userid=cxint2yc-tuygwkpekauew::2::1::nan::nan::nan::用户::5
楠::楠::楠::楠::楠::3.0::楠::ofaugrtkoumweujbod1mfw::楠::楠::楠::楠::楠::4::艾米b.::楠:::http://www.yelp.com/user_details?userid=ofaugrtkoumweujbod1mfw::1::1::nan::nan::nan::用户::6
太好了!好吧,这个地方显然不是素食主义者,因为他们有一堆奶酪和鸡蛋,但我看到他们确实提供了大量的素食替代品。
我在这里有点怀疑,因为价格很高,我觉得。
不管怎样,他们自制的辣酱棒极了。我晚餐吃了鸡蛋本尼迪克特,j吃了煎蛋卷。两个都很好。我很喜欢他们的家庭炸薯条。。但是下次我来这里,我想要洋葱圈或薯条。那些洋葱圈看起来棒极了。
最后,食物来得比较快。
不喜欢这项服务。他们想让我们坐在炉子边上,不请自来,所以我要了一个摊位。然后在摊位上,服务员没有很好地补充水,但并不觉得不好,反复强调我们是否想要他们5-7美元的甜点。老实说,一块馅饼6.5美元?素食银河,你太棒了!
但是很棒的食物(特别脆弱!)::qw5gr8vw7msok4vroswdma::南::南::南::南::南::南::2011-11-12::zïu waxc4rupkp3y12bh1beg::南::南::南::南::南::南::南::南::南::南::南::南::南::0::南::南::南::南::南::南
85tbs2rt5f6kqz5l7\ jfrw::好地方!
我得说菜单和户外座位让我们一直在回来。食物很好——两次都吃了早餐,但有些朋友吃了午餐。绝对是个不错的选择。我们一直在非高峰时间,所以没有等待和更好的服务。
总之,这不是dz akins,但绝对值得一试!::-tphabjrkegv4fr1ke4fq::nan::nan::nan::nan::2010-09-19::1izwxafxuhtnzkoupuob5q::nan::nan::nan::nan::nan::0::nan::4::nan::review::0

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题