我希望对一个维度为(120000 x 4)的DataFrame进行聚类。
它由两个基于字符串的“标签”列(str 1和str 2)和两个数字列组成,如下所示:
Str1 Str2 Energy intensity
0 713 599 7678.159 5367.276014
1 715 598 7678.182 6576.100453
2 714 597 7678.183 5675.788001
3 684 587 7678.493 3040.650157
4 693 588 7678.585 5585.908164
5 695 586 7678.615 3184.001905
6 684 584 7678.674 4896.774505
7 799 509 7693.645 4907.484401
8 798 508 7693.754 4075.800912
9 797 507 7693.781 4407.800702
10 796 506 7694.043 3138.073328
11 794 505 7694.049 3653.699936
12 795 504 7694.077 3875.120022
13 675 277 7694.948 3081.797654
14 709 221 7698.216 3587.704908
15 708 220 7698.252 4070.050144
...........
对这些数据进行聚类/分类的最佳ML算法是什么?
我试着绘制属于一个特定类别的单个能量和强度分量Str 1 ==“713”等,这并没有给予我太多的信息。如果可能的话,我需要一些更紧凑的聚类。
1条答案
按热度按时间0vvn1miw1#
你可以尝试对Str 1和Str 2做分类编码或者one-hot编码(分类编码适用于有大小关系的类,而one-hot编码应用更广泛),这些都将把字符串转换成数值型数据,你可以简单地使用任何回归模型。