目录

数据预处理

数据分析

  1. pandas -> df.head() 和 df.describe()
  2. pandas_profiling -> ProfileReport()
    • train_file_profiling = pandas_profiling.ProfileReport(train_file, config_file="./config_minimal.yaml")
    • train_file_profiling.to_file("train_file_profiling.html")
  3. seaborn
    1. sns.boxplot() 查看离群点
  4. matplotlib.pyplot
    1. plt.scatter() 查看是否具有线性关系

数据处理

  1. 删除列
    1. df.drop()
  2. 转换为数值类型
    1. label:sklearn.preprocessing.LabelEncoder
    2. onehot: pd.get_dummies()
    3. word2vec
  3. 空值
    1. 用min,max,mean等填充
    2. 删除
  4. 相关多列可合并为一列
    1. 如价格和平米可合并为价格每平米
  5. 标准化、归一化
    1. sklearn.preprocessing.StandardScaler
  6. 对数变换

流程

数据分析(数据类型、数据分布、有无空值)->数据预处理(空值、标准化)->模型构建->训练->模型融合