1 什么是特征预处理
通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。
1.1 包含内容
数据类型的无量纲化: 归一化 、标准化。
1.2 特征预处理API
sklearn.preprocessing
1.3 归一化
1.3.1 定义
通过对原始数据进行变换把数据映射到0与1之间(默认0与1)。
1.3.2 公式
1.3.3 实现API
代码实现
from sklearn.preprocessing import MinMaxScaler
import pandas as pddef minmax_demo():"""归一化:return:"""#1 获取数据data=pd.read_csv("data.csv")#取前三列data=data.iloc[:,:3]#print("data:\n",data)#2 实例化转换器transfer=MinMaxScaler()#3 调用fit_transformdata_new=transfer.fit_transform(data)print("data_new:\n",data_new)if __name__ == '__main__':minmax_demo()
输出日志
data.csv文件
1.3.4 总结
1.4 标准化
1.4.1 定义
通过对原始数据进行变换,把数据变换到0,标准差为1范围内。
1.4.2 公式
1.4.3 实现API
代码实现
from sklearn.preprocessing import StandardScaler
import pandas as pddef minmax_demo():"""归一化:return:"""#1 获取数据data=pd.read_csv("data.csv")data=data.iloc[:,:4]print("data:\n",data)#2 实例化转换器transfer=StandardScaler()#3 调用fit_transformdata_new=transfer.fit_transform(data)print("data_new:\n",data_new)if __name__ == '__main__':minmax_demo()
1.4.4 总结
在已有样本足够多的情况下比较稳定,适合现在嘈杂大数据场景。