例如,我有一个包含1000行和10个变量的数据集:现在,让我们假设我想计算前4个变量之间的相关性......我该怎么做呢?
import pandas as pd df = pd.read_csv('random_data.csv') df.corr()[0:4]
这段代码计算了前4个变量与数据集中所有变量的相关性。我该如何调整它,使其成为一个4x4的相关性矩阵,而不是4x10的相关性矩阵?谢谢!
jtoj6r0c1#
为此,您需要使用仅包含所需列的 Dataframe 子集。df[['col1', 'col2', 'col3', 'col4']].corr()或df.iloc[:, :4].corr()选择前4列
df[['col1', 'col2', 'col3', 'col4']].corr()
df.iloc[:, :4].corr()
1条答案
按热度按时间jtoj6r0c1#
为此,您需要使用仅包含所需列的 Dataframe 子集。
df[['col1', 'col2', 'col3', 'col4']].corr()
或
df.iloc[:, :4].corr()
选择前4列