数据预处理
发布时间:2022-09-21 16:10:47
发布人:wjy
1. 缺失值,填充缺失值fillna: i. 离散:None, ii. 连续:均值。 iii. 缺失值太多,则直接去除该列
2. 连续值:离散化。有的模型(如决策树)需要离散值
3. 对定量特征二值化。核心在于设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0。
4. 皮尔逊相关系数,去除高度相关的列