数据预处理
目录
数据分析
- pandas -> df.head() 和 df.describe()
- pandas_profiling -> ProfileReport()
train_file_profiling = pandas_profiling.ProfileReport(train_file, config_file="./config_minimal.yaml")train_file_profiling.to_file("train_file_profiling.html")
- seaborn
- sns.boxplot() 查看离群点
- matplotlib.pyplot
- plt.scatter() 查看是否具有线性关系
数据处理
- 删除列
- df.drop()
- 转换为数值类型
- label:sklearn.preprocessing.LabelEncoder
- onehot: pd.get_dummies()
- word2vec
- 空值
- 用min,max,mean等填充
- 删除
- 相关多列可合并为一列
- 如价格和平米可合并为价格每平米
- 标准化、归一化
- sklearn.preprocessing.StandardScaler
- 对数变换
流程
数据分析(数据类型、数据分布、有无空值)->数据预处理(空值、标准化)->模型构建->训练->模型融合