获取概率密度图&k-means聚类3亿行

l7wslrjt 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(487)

我使用的dbms是mysql（mariadb）。
表格方案如下：

CREATE TABLE MyTable (
ID     INT     PRIMARY KEY,
TEXT   VARCHAR(200),
VALUE  DECIMAL(15,2) )

该表有3亿行或更多行。
我想通过从文本中提取值（例如， SELECT VALUE FROM MyTable WHEN TEXT LIKE '%any keywords%'; sql）（要在web上显示的结果）
绘制概率密度图
用k-均值算法对值进行聚类
只有使用sql才能得到上述结果吗？如果是，表现如何(要求的响应时间小于2秒）如果没有，您能推荐更好的方法吗？
如果有10个数据节点 NoSQL 以及 Mahout ，是否有可能在2秒内得到每个查询的结果，特别是当每秒有5个查询时？如果不是，需要多少个数据节点？
所以，请推荐我的系统架构，如果你知道任何解决方案，我目前遇到的麻烦。

sql hadoop mysql nosql mahout

来源：https://stackoverflow.com/questions/25246052/getting-probability-density-graph-k-means-clustering-with-300-million-rows

1条答案

按热度按时间

uz75evzq1#

这是一个有点长的评论。
你的期望有点极端。它可能会满足需求，使用大量定制代码和具有大量处理器和大量内存的系统。
首先，你似乎不明白k-means是怎么工作的。距离度量是多少？
其次，您没有解释为什么需要为每个查询重新聚集记录。通常，聚类更多的是一种离线活动，而评分（或分配聚类）是在线的。
最后，我不建议对原始文本使用k-means聚类。还有其他聚类文本的算法，很可能更适合您的实际问题。我建议你学习一下数据挖掘（什么是k-means算法？什么有用？什么是期望最大化聚类？什么是奇异值分解？）我还建议您学习文本分析（什么是标记化？什么是词干？什么是语言袋？什么是语义分析？）。你的问题表明你对这两个问题都不了解。

赞(0）回复(0）举报 2021-06-04

我来回答

获取概率密度图&k-means聚类3亿行

1条答案

相关问题

热门标签

最新问答