下面是我尝试执行的代码,用于使用虚拟值对数据集第一列的值进行编码
第一个
i'm getting an error
有人能帮我解决这个问题吗?有人能帮我解决这个问题吗?
6yt4nkrj1#
一个更方便的编码分类特征的方法是使用Pandas的工具,我实现如下:
df = pd.DataFrame({'feature':['French', 'Germany', 'Germany', 'Spain']}) labelencoder = LabelEncoder()# Assigning numerical values and storing in another column df['categorical_feature'] = labelencoder.fit_transform(df['feature']) enc = OneHotEncoder(handle_unknown='ignore')# passing cat column (label encoded values of df) enc_df = pd.DataFrame(enc.fit_transform(df[['categorical_feature']]).toarray(), columns=labelencoder.classes_)# merge with main df on key values df = df.join(enc_df) df
输出:
feature categorical_feature French Germany Spain 0 French 0 1.0 0.0 0.0 1 Germany 1 0.0 1.0 0.0 2 Germany 1 0.0 1.0 0.0 3 Spain 2 0.0 0.0 1.0
1条答案
按热度按时间6yt4nkrj1#
一个更方便的编码分类特征的方法是使用Pandas的工具,我实现如下:
输出: