ML之FE之chi2:基于mushroom蘑菇数据集利用对RF模型采用chi2算法(基于P值调参的k值挑选)实现特征筛选并可视化特征个数与模型得分的变化曲线、输出最佳特征个数Top_i的特征名称应用案
相关文章
ML之FE之chi2:基于mushroom蘑菇数据集利用对RF模型采用chi2算法(基于P值调参的k值挑选)实现特征筛选并可视化特征个数与模型得分的变化曲线、输出最佳特征个数Top_i的特征应用案例
ML之FE之chi2:基于mushroom蘑菇数据集利用对RF模型采用chi2算法(基于P值调参的k值挑选)实现特征筛选并可视化特征个数与模型得分的变化曲线、输出最佳特征个数Top_i的特征实现代码
基于mushroom蘑菇数据集利用对RF模型采用chi2算法(基于P值调参的k值挑选)实现特征筛选并可视化特征个数与模型得分的变化曲线、输出最佳特征个数Top_i的特征名称应用
# 1、定义数据集
# 2、特征工程/数据预处理
# 2.1、统计各特征的缺失值占比
# 2.4、特征编码化:特征数据集执行OneHotEncoding编码、标签数据执行LE化
# 3、利用chi2算法(基于P值调参的k值挑选)实现特征筛选
# 3.1、0~1数据归一化:卡方只取非负值作为输入
# 3.2、基于RF模型的交叉验证评估
0.912357711254263
# 3.3、学习曲线选K值:绘制随着不同特征个数而得出模型得分的变化曲线
# 3.4、P值调参
p<=0.05或0.01,说明两组数据是相关的,反之相互独立
109
# 3.5、输出最佳特征个数Top_i的特征名称
20 ['bruises_f', 'bruises_t', 'odor_f', 'odor_n', 'odor_y', 'gill-spacing_w', 'gill-size_b', 'gill-size_n', 'gill-color_b', 'stalk-surface-above-ring_k', 'stalk-surface-above-ring_s', 'stalk-surface-below-ring_k', 'ring-type_l', 'ring-type_p', 'spore-print-color_h', 'spore-print-color_k', 'spore-print-color_n', 'spore-print-color_w', 'population_v', 'habitat_p']