是否有一种方法可以对CSV文件中的一组变量进行主成分分析,同时使用不同颜色的预计算聚类进行绘图并标记其质心,如果这些属性是CSV文件的特定列。假设我有数百个列,我想在其中执行PCA,我想为CSV文件的每个条目计算PC,但我想基于cluster_id列(0,1,2等)使用不同的颜色进行绘图,并使用不同于标准标记的标记标记来标记它们的质心。
pxy2qtax1#
你可以使用seaborn或matplotlib来实现。用cluster_id给予一个数据框架:
cluster_id
import seaborn as sns import matplotlib.pyplot as plt fig = plt.figure(figsize=(12,9)) ax = sns.scatterplot(x=PCA_RESULTS[:, 0], y=PCA_RESULTS[:, 1] hue=data['cluster_id'], style=data['cluster_id'])
其中PCA_RESULTS是pca运行的前两个主成分,data ['cluster_id']是用于对散点图中的点着色的信息。style参数用于为每个集群id设置标记。
style
1条答案
按热度按时间pxy2qtax1#
你可以使用seaborn或matplotlib来实现。用
cluster_id
给予一个数据框架:其中PCA_RESULTS是pca运行的前两个主成分,data ['cluster_id']是用于对散点图中的点着色的信息。
style
参数用于为每个集群id设置标记。