我想对如下数据集执行k均值聚类
(oa、mobileno、text是csv的标题)
oa | mobileno |文本
575756 | 918050173932 | sekhar添加了一张照片。请看https://fb.com/l/
rm-444555 | 91879225717 |多米诺骨牌买一份披萨送一份免费
vm olamny | 919160281882 |在ola驾驶室内增加rs.10
如上所述,我有一个巨大的数据集,如何对数据进行聚类并找到其中隐藏的模式(例如:哪个oa正在发送与cab相关的消息,哪个oa正在发送fb通知等)
我必须根据他们发送的文本来获取oa的集群
集群1:cab相关oa集群2:fb通知等
k-means聚类只对数值数据有效吗?
1条答案
按热度按时间vwkv1x7d1#
k-means只对连续的数值变量有效。
这是有原因的:在其他数据上,均值没有意义,所以k均值聚类没有意义。