MinMaxScaler

归一化工具,把特征 feature 放缩到给定的范围内(默认值 0~1)

  • 一个 Python 类
  • 模块位置

    • sklearn.preprocessing

方法

调节比例 Rescaling

使用极值

平均值规范化 Mean Normalisation

使用平均值和极差

标准化 Standardization

使用平均值和标准差

  • 零均值 zero-mean
  • 单位方差 unit-variance

缩放到单位长度

使用模

Boosting 算法

https://www.cnblogs.com/zhubinwang/p/5170087.html 把多个弱学习算法合成一个强学习算法

  • Adaboost 算法
  • Gradient Boosting 算法

GradientBoostingRegressor

  • 位置

    • sklearn.ensemble

模型位置

  • sklearn.ensemble.*

feature extractor 特征提取模块

vectorizer 向量化工具

sklearn.datasets 模块

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
from __future__ import print_function
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target

##print(iris_X[:2, :])
##print(iris_y)

X_train, X_test, y_train, y_test = train_test_split(
    iris_X, iris_y, test_size=0.3)

##print(y_train)

knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
print(knn.predict(X_test))
print(y_test)

数据集字段

  • loaded_data.data

    • feature array 特征数组
  • loaded_data.target

    • label array 标签数据

工具

  • datasets.make_regression

    • 回归数据集制作,仿真数据
    • 自定义噪声
  • datasets.make_classification

    • 分类数据集制作

sklearn.model_selection

功能:

  • 数据集拆分(训练,验证,测试)

    • train_test_split
1
train_X, train_Y, test_X, test_Y = train_test_split(X_data, Y_data, test_size=0.3)

model 模块

通用接口函数和字段

  • model.fit(X, y)

    • 学习和 fitting
  • model.predict(X)

    • 预测
  • 参数

    • 训练后模型参数

      • model.coef_

        • 模型参数
      • model.intercept_

        • 模型截距
  • 训练前输入参数

    • model.get_params()
  • 评估

    • model.score(X_data, y_data)

      • R^2, coefficient of determination

相关类和模块

sklearn.linear_model

  • LinearRegression

sklearn.proprocessing 数据预处理