1.4.3 Python语言类别变量编码_大数据分析与应用实战：统计机器学习之数据导向编程-QQ阅读男频玄幻网

书名：大数据分析与应用实战：统计机器学习之数据导向编程
作者名：邹庆士编著
本章字数：570字
更新时间：2022-07-28 20:15:39

1.4.3　Python语言类别变量编码

1.3.6节R语言因子曾提及数据创建或导入Python后，在建模前通常须先进行类别变量编码，以下举例说明。首先通过原生数据结构嵌套列表（nested lists）建构pandas数据集df：

接着定义好数据集字段size三个类别值（或称水平）与整数值的对应关系字典size_mapping，再取出pandas一维序列对象df['size']，将编码规则字典传入序列的map()方法，更新df['size']后完成标签编码的工作。

以上是手工类别变量标签编码的步骤，Python套件scikit-learn中的LabelEncoder类别也可方便地达成相同的目的。加载类别并创建LabelEncoder类别对象后，fit_transform()方法是循序调用fit()与transform()方法，对df['classlabel']进行拟合与转换（参见1.6.2节Python语言面向对象）。

LabelEncoder类别对象class_le还有inverse_transform()方法可将编码后的结果逆转换回原类别变量，此时传入逆转换方法的对象必须是一维的，而非二维的y.reshape（-1,1）。读者请注意numpy的ndarray对象，其reshape()方法的第一个参数值设为-1的含义是：根据给定的第二个参数值1，自动推断数据变形后的第一维长度。

OneHotEncoder是scikit-learn套件的单热编码类别，不过进行单热编码前，须先将数据表中所有类别变量都完成标签编码，不能有任何字段是object类别。

加载单热编码类别后，指定欲编码的类别属性为第一个（[0]）属性color，传入X拟合与转换后，所得为默认的稀疏矩阵（sparse matrix）格式，这是因为单热编码矩阵中0的个数经常多于1的个数，因此需要用toarray()方法转换为常规矩阵。

pandas套件的get_dummies()方法可能是最方便的单热编码方式，get_dummies()应用在DataFrame对象，仅将字符串字段进行虚拟编码，其他字段维持不变。