我在hdfs中有一个制表符分隔的文本文件,它是从其他人构建的类似于这样的文本分析中输出的。真正的文件是18k列宽的,当它每月刷新时,列数不是静态的,列名也不是静态的。
Product ID [I love peanuts] [Your mom is silly] [Let's eat pizza]
P-ABCD 0 0 1
P-1234 1 1 0
我需要写一个程序,将搜索或查询“让我们吃比萨饼”,并返回p-d。
我现在正在使用python,但是我对python和map reduce都是新手,所以我很难思考如何解决这个问题。情况已经够奇怪了,我还没有找到其他解决办法。
我在想,如果我能转动“table”,使它看起来像这样:
ProductID Phrase
P-ABCD [Let's eat pizza]
这将更容易使用,但我不确定哪种语言或技术会是最好的。你想怎么解决吗?
2条答案
按热度按时间aiazj4mn1#
searchtable(“让我们吃比萨饼吧”)
p-d
searchtable(“我爱花生”)
p-1234电话
searchtable(“你妈妈很傻”)
p-1234电话
q43xntqr2#
文件.txt
代码