pandas 哪种ML算法适合于聚类分类和数值 Dataframe 的组合?

f0ofjuux  于 2023-02-17  发布在  其他
关注(0)|答案(1)|浏览(125)

我希望对一个维度为(120000 x 4)的DataFrame进行聚类。
它由两个基于字符串的“标签”列(str 1和str 2)和两个数字列组成,如下所示:

Str1 Str2  Energy    intensity  
0   713  599  7678.159  5367.276014  
1   715  598  7678.182  6576.100453  
2   714  597  7678.183  5675.788001  
3   684  587  7678.493  3040.650157  
4   693  588  7678.585  5585.908164  
5   695  586  7678.615  3184.001905  
6   684  584  7678.674  4896.774505  
7   799  509  7693.645  4907.484401  
8   798  508  7693.754  4075.800912  
9   797  507  7693.781  4407.800702  
10  796  506  7694.043  3138.073328  
11  794  505  7694.049  3653.699936  
12  795  504  7694.077  3875.120022  
13  675  277  7694.948  3081.797654  
14  709  221  7698.216  3587.704908  
15  708  220  7698.252  4070.050144   
...........

对这些数据进行聚类/分类的最佳ML算法是什么?
我试着绘制属于一个特定类别的单个能量和强度分量Str 1 ==“713”等,这并没有给予我太多的信息。如果可能的话,我需要一些更紧凑的聚类。

0vvn1miw

0vvn1miw1#

你可以尝试对Str 1和Str 2做分类编码或者one-hot编码(分类编码适用于有大小关系的类,而one-hot编码应用更广泛),这些都将把字符串转换成数值型数据,你可以简单地使用任何回归模型。

相关问题