twitter数据分析

ycggw6v2  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(336)

我已经为我当前的研究项目使用flume收集了twitter数据。我只想从这些flumedata文件中提取文本。我想对这些tweet进行mahout文本聚类。有人能告诉我怎么做吗?
到目前为止,
我用flume收集twitter数据
我使用hive解析了我的数据,并构建了一个只包含文本tweets的tweets表。 hive -e 'select * from tweets' > sample.txt ,这让我把所有的微博都变成了一个文本文档。
我用Hive来解析数据。。还有别的办法吗?因为我关心的是我想分割成多个文本文档的tweets,以便我可以执行mahout文本聚类。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题