sklearn ---- python ai assistant tool

cheat sheet

Choosing the right estimator — scikit-learn 1.2.2 documentation
- 选择模型

MinMaxScaler

归一化工具，把特征 feature 放缩到给定的范围内（默认值 0~1）

一个 Python 类
模块位置
- sklearn.preprocessing

特征放缩

https://blog.csdn.net/iterate7/article/details/78881562?utm_source=blogxgwz7

方法

调节比例 Rescaling

使用极值

平均值规范化 Mean Normalisation

使用平均值和极差

标准化 Standardization

使用平均值和标准差

零均值 zero-mean
单位方差 unit-variance

缩放到单位长度

使用模

Boosting 算法

https://www.cnblogs.com/zhubinwang/p/5170087.html 把多个弱学习算法合成一个强学习算法

Adaboost 算法
Gradient Boosting 算法

GradientBoostingRegressor

位置
- sklearn.ensemble

模型位置

sklearn.ensemble.*

随机森林模型 RandomForest

参考
- 参数解释：Random Forest算法参数解释及调优_Magician 的博客-CSDN博客_randomforestregressor 参数

feature extractor 特征提取模块

vectorizer 向量化工具

参考： 6.2.3.3 Feature extraction — common-vectorizer-usage

sklearn.datasets 模块

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
from __future__ import print_function
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target

##print(iris_X[:2, :])
##print(iris_y)

X_train, X_test, y_train, y_test = train_test_split(
    iris_X, iris_y, test_size=0.3)

##print(y_train)

knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
print(knn.predict(X_test))
print(y_test)

数据集字段

loaded_data.data
- feature array 特征数组
loaded_data.target
- label array 标签数据

工具

datasets.make_regression
- 回归数据集制作，仿真数据
- 自定义噪声
datasets.make_classification
- 分类数据集制作

sklearn.model_selection

功能：

数据集拆分（训练，验证，测试）
- train_test_split

1
train_X, train_Y, test_X, test_Y = train_test_split(X_data, Y_data, test_size=0.3)

model 模块

通用接口函数和字段

model.fit(X, y)
- 学习和 fitting
model.predict(X)
- 预测
参数
- 训练后模型参数
  - model.coef_
    - 模型参数
  - model.intercept_
    - 模型截距
训练前输入参数
- model.get_params()
评估
- model.score(X_data, y_data)
  - R^2, coefficient of determination

sklearn ---- python ai assistant tool

文章目录

cheat sheet

MinMaxScaler

特征放缩

方法

调节比例 Rescaling

平均值规范化 Mean Normalisation

标准化 Standardization

缩放到单位长度

Boosting 算法

GradientBoostingRegressor

模型位置

随机森林模型 RandomForest

feature extractor 特征提取模块

vectorizer 向量化工具

sklearn.datasets 模块

数据集字段

工具

sklearn.model_selection

model 模块

通用接口函数和字段

相关类和模块

sklearn.linear_model

sklearn.proprocessing 数据预处理