机器学习笔记（三）——LogisticRegression的原理以及代码实现

作者：Ag冫g彡ie琪琪 | 来源：互联网 | 2023-10-12 09:40

假设现在有一些数据点，我们用一条直线对这些点进行拟合（该线称为最佳拟合直线），这个拟合过程就称作回归。利用Logistic回

假设现在有一些数据点&＃xff0c;我们用一条直线对这些点进行拟合&＃xff08;该线称为最佳拟合直线&＃xff09;&＃xff0c;这个拟合过程就称作回归。利用Logistic 回归进行分类的主要思想是&＃xff1a;根据现有数据对分类边界线建立回归公式&＃xff0c;以此进行分类。这里的“ 回归“一词源于最佳拟合&＃xff0c;表示要找到最佳拟合参数集&＃xff0c;其背后的数学分析将在下面介绍。训练分类器的做法就是寻找最佳拟合参数&＃xff0c;使用的是梯度下降法&＃xff0c;本文首先阐述Logistic 回归的定义&＃xff0c;然后推导回归系数的迭代公式&＃xff0c;最后给出一个Logistic 回归的实例&＃xff0c;使用python 3.6编写代码&＃xff0c;根据肿瘤的形状数据来预测肿瘤的良恶性。

一、Sigmoid函数的介绍

Logistic Regression是线性回归&＃xff0c;但最终是用作分类器&＃xff1a;它从样本集中学习拟合参数&＃xff0c;将目标值拟合到[0,1]之间&＃xff0c;然后对目标值进行离散化&＃xff0c;实现分类。

为什么叫Logistic呢&＃xff1f;因为它使用了Logisitic函数&＃xff08;又称为Sigmoid函数&＃xff09;&＃xff0c;这个Sigmoid函数将分类任务的真实标记和线性回归模型的预测值联系起来。Sigmoid函数具体的计算公式如下&＃xff1a;

首先我们来看一下Sigmoid函数在不同坐标尺度下的两条曲线图&＃xff0c;下面是绘制曲线图的python代码&＃xff1a;

import numpy as np import matplotlib.pyplot as pltdef sigmoid( inx ):"""这是sigmoid函数"""return 1.0/(1&＃43;np.exp(-inx))x_value &＃61; np.linspace(-6,6,20) y_value &＃61; sigmoid( x_value ) xx_value &＃61; np.linspace(-60,60,120) yy_value &＃61; sigmoid( xx_value )#numpy模块中的linspace()函数与arange()函数非常相似。它的前两个参数同样是用来指定序列的起始和结尾&＃xff0c;#但是第三个参数不再表示相邻两个数字之间的距离&＃xff0c;而是用来指定我们想把由开头和结尾两个数字所指定的范围分成几个部分。 fig &＃61; plt.figure() ax1 &＃61; fig.add_subplot(211) ax1.plot( x_value,y_value ) ax1.set_xlabel(&＃39;x&＃39;) ax1.set_ylabel(&＃39;sigmoid(x)&＃39;) ax2 &＃61; fig.add_subplot(212) ax2.plot( xx_value,yy_value ) ax2.set_xlabel(&＃39;x&＃39;) ax2.set_ylabel(&＃39;sigmoid(x)&＃39;) plt.show()

得到两种坐标尺度下的Sigmoid函数图&＃xff0c;如下所示&＃xff0c;其中上图的横坐标为-6到6&＃xff0c;这时的曲线变化较为平滑&＃xff1b;下图横坐标的尺度足够大&＃xff0c;可以看到&＃xff0c;在x&＃61;0点处Sigmoid函数看起来很像单位阶跃函数。而这种类似于阶跃函数的效果正是我们想要的&＃xff0c;考虑二分类任务&＃xff0c;其输出标记为0和1&＃xff0c;而Sigmoid函数将z值转化为一个接近0或1的y值&＃xff0c;并且其输出值在z &＃61; 0附近变化很陡。

Sigmoid函数的输入记为z&＃xff0c;暂且又下面公式表出&＃xff1a;

其中表示示例在属性上面的取值。因此&＃xff0c;为了实现Logistic回归分类器&＃xff0c;我们可以在每个特征上都乘以一个回归系数&＃xff0c;然后把所有的结果值相加&＃xff0c;将这个总和代入Sigmoid函数中&＃xff0c;进而得到一个范围在0~1之间的数值。任何大于0.5的数据被分入1类&＃xff0c;小于0.5即被归入0类。所以&＃xff0c;Logistic回归也可以被看成是一种概率估计。

为了使得分类器尽可能地精确&＃xff0c;我们需要找到最佳参数&＃xff08;系数&＃xff09;&＃xff0c;然而&＃xff0c;为了找到最佳参数&＃xff08;系数&＃xff09;&＃xff0c;需要用到最优化理论的一些知识。

二、线性回归的基础
给定包含个示例的数据集&＃xff0c;其中&＃xff0c;其中是在第1个属性上的取值&＃xff08;括号中的‘;’表示这是一个列向量&＃xff0c;‘&＃xff0c;’表示这是行向量&＃xff0c;下同&＃xff09;&＃xff0c;。”线性回归“试图学得一个线性模型以尽可能准确地预测实值输出标记。
        线性模型试图学得一个通过属性的线性组合来进行预测的函数&＃xff0c;即

一般用向量形式写出

其中
。
为了便于讨论&＃xff0c;我们把和吸收入向量形式&＃xff0c;变成的形式。因此&＃xff0c;我们重新得到

其中
        如何确定和呢&＃xff1f;显然关键在于如何衡量和之间的差别。均方误差&＃xff08;亦称为平方损失&＃xff09;是回归任务中最常用的性能度量&＃xff0c;因为它求导方便&＃xff0c;做梯度优化的时候计算便捷。误差形式如下

         显然此公式是二次方程&＃xff0c;有最小值&＃xff0c;当它取最小值得时候&＃xff0c;所对应的就是最佳拟合参数。求解使最小化的过程&＃xff0c;称为线性回归模型的最小二乘”参数估计“。

三、梯度下降法求解优化问题
   梯度下降法基于的思想是&＃xff1b;要找到某函数的最小值&＃xff0c;最好的方式就是沿着该函数的梯度方向的反方向搜寻。
        其步骤是&＃xff0c;先随机给赋值&＃xff0c;然后沿着公式一阶偏导的反方向计算下降量值&＃xff0c;多次重复&＃xff0c;最终会让公式收敛到一个极小值。用向量来表示的话&＃xff0c;梯度下降法的迭代公式如下&＃xff1a;
其中&＃xff0c;是步长&＃xff0c;即每次迭代的移动量的大小。
由于涉及到矩阵的计算&＃xff0c;比单变量情形要复杂一些&＃xff0c;下面我们做一个简单的讨论&＃xff1a;
我们先来求解&＃xff0c;推导过程如下&＃xff1a;


        前面我们为了便于讨论&＃xff0c;已经把和吸收入一个向量当中&＃xff0c;相应的&＃xff0c;把数据集表示为一个大小的矩阵&＃xff0c;其中每行对应于一个示例&＃xff0c;该行后个元素对应于示例的个属性值&＃xff0c;第一个元素恒置为1&＃xff0c;即

再把标记也写出向量形式&＃xff0c;因此上面推导过程最后一步可以写为

同理&＃xff0c;可以表示为
所以&＃xff0c;误差的一阶偏导可以写成

综上所述&＃xff0c;我们把写成矩阵的形式&＃xff0c;如下所示


结合以及转置矩阵的运算规律和&＃xff0c;得到以梯度下降法计算最优的迭代公式为&＃xff1a;

四、Logistic Regression的代码实现
上一节我们用梯度下降法推导出的迭代公式&＃xff0c;现在我们结合实例来实现逻辑回归。本节将使用Logistic Regression来预测肿瘤的良恶性问题。这里的数据包含699个样本数据&＃xff0c;我们把样本数据分为训练集&＃xff08;524个样本&＃xff09;和测试集&＃xff08;175个样本&＃xff09;&＃xff0c;并以csv的格式存在两个不同的文件中&＃xff0c;如下所示&＃xff1a;
部分数据如下所示&＃xff1a;

接下来我们编写两个加载数据集的函数&＃xff0c;一个用来加载训练集&＃xff0c;另一个用来加载测试集&＃xff0c;代码如下所示&＃xff1a;
import numpy as np import pandas as pd import matplotlib.pyplot as pltplt.rcParams[&＃39;font.sans-serif&＃39;]&＃61;[&＃39;simHei&＃39;] #这句话用来设置 matplotlib.pyplot模块绘制的图中正常显示中文字体 plt.rcParams[&＃39;axes.unicode_minus&＃39;]&＃61;False #这句话用来设置 matplotlib.pyplot模块绘制的图中正常显示负号################################### ##### theme:逻辑回归实战 ##### #### author&＃xff1a;行歌 ####### #### time&＃xff1a;2018.3.11 ###### ################################def loadTrainDataSet(file_name):"""此函数用来向csv格式的文件中加载训练数据&＃xff0c;并以数组的形式输出训练集和类别标签。输入&＃xff1a; file_name1是训练集所在的相对地址输出&＃xff1a; trainDateArr是训练数据集&＃xff08;5243的数组形式&＃xff09;trainLabelArr是训练集的类别标签&＃xff08;1524的数组形式&＃xff09;"""trainData &＃61; pd.read_csv(file_name)trainDate_1 &＃61; trainData[[&＃39;Clump Thickness&＃39;,&＃39;Cell Size&＃39;]].valuestrainLabelArr &＃61; trainData[[&＃39;Type&＃39;]].values.ravel()bias_item_train &＃61; np.mat([1.0]trainDate_1.shape[0]).TtrainDateArr &＃61; np.hstack((bias_item_train,trainDate_1)).Areturn trainDateArr, trainLabelArrdef loadtestDataSet(file_name):"""此函数用来向csv格式的文件中加载测试数据&＃xff0c;并以数组的形式输出测试集和类别标签。输入&＃xff1a; file_name1是测试集所在的相对地址输出&＃xff1a; testDateArr是测试数据集&＃xff08;1752的数组形式&＃xff09;testLabelArr是测试集的类别标签&＃xff08;1175的数组形式&＃xff09;"""testData &＃61; pd.read_csv(file_name)testDateArr_1 &＃61; testData[[&＃39;Clump Thickness&＃39;,&＃39;Cell Size&＃39;]].valuestestLabelArr &＃61; testData[[&＃39;Type&＃39;]].values.ravel()bias_item_test &＃61; np.mat([1.0] testDateArr_1.shape[0]).TtestDateArr &＃61; np.hstack(( bias_item_test,testDateArr_1)).Areturn testDateArr, testLabelArr
加载完数据我们打印一下训练集和类别标签&＃xff0c;如下所示&＃xff1a;

训练集数组的第一列全为1.0&＃xff0c;它们对应线性回归方程中的偏置项&＃xff0c;前面我们讲过。
接下我们编写函数来根据输入的训练集来计算回归系数&＃xff0c;代码如下&＃xff1a;
def sigmoid( inx ):"""这是sigmoid函数"""return 1.0/(1&＃43;np.exp(-inx))def calculate_regression_coefficient( DateArr, LabelArr ):"""此函数用来计算线性回归中的回归系数输入&＃xff1a; DateArr是数组形式的样本集LabelArr是样本集对应的类别标签输出: weight_vector是回归系数向量"""m, n &＃61; DateArr.shapeLabelArr &＃61; LabelArr.reshape(m,1)alpha &＃61; 0.001max_iterations &＃61; 500weight_vector &＃61; np.ones((n,1))for i in range( max_iterations ):h &＃61; sigmoid( np.dot(DateArr, weight_vector) )error &＃61; ( LabelArr - h )weight_vector &＃61; weight_vector &＃43; alpha * np.dot(DateArr.T, error)return weight_vector
将训练集代入其中&＃xff0c;可以得到回归系数如下所示&＃xff1a;

现在我们已经得到回归系数&＃xff0c;也就意味着我们得到逻辑回归模型了&＃xff0c;于是&＃xff0c;我们编写函数预测测试集样本的类别&＃xff0c;并与真实类别相比较&＃xff0c;计算出错误率或者正确率&＃xff0c;同时将测试集样本在散点图中展出&＃xff0c;根据回归系数&＃xff0c;画出不同类别数据之间的分隔线。代码如下所示&＃xff1a;
def classifyVector(inx,weight_vector ):"""此函数以回归系数和特征向量作为输入来计算对应的Sigmoid值。如果Sigmoid值大于0.5&＃xff0c;则函数返回1&＃xff0c;否则返回0"""prob &＃61; sigmoid( np.sum(inx * weight_vector))if prob > 0.5:return 1.0else:return 0.0def calculata_errorRate( testDateArr, testLabelArr, weight_vector ):"""这个函数根据测试集的样本&＃xff0c;计算分类错误率 """prob_Arr &＃61; sigmoid(np.dot( testDateArr,weight_vector ))label_result &＃61; np.zeros((prob_Arr.shape[0],1))label_result[np.nonzero(prob_Arr > 0.5)[0]] &＃61; 1.0total_error &＃61; 0.0for i in range(len(label_result)):if label_result[i] !&＃61; testLabelArr[i]:total_error &＃43;&＃61; 1errorRate &＃61; total_error/ len(label_result)return errorRatedef draw_testDate_scatterGraph(testDateArr, testLabelArr,weight_vector):"""此函数首先将测试数据集按照类别划分为正类和负类两个数据集&＃xff0c;然后以散点图的形式将它们展现出来。输入&＃xff1a; testDateArr 测试数据集&＃xff08;1752的数组形式&＃xff09;testLabelArr 测试数据集对应的类别标签&＃xff08;1175的数组形式&＃xff09;输出&＃xff1a; 散点图"""positive_index &＃61; np.nonzero( testLabelArr &＃61;&＃61;1 )testDateArr_positive &＃61; testDateArr[positive_index]negative_index &＃61; np.nonzero( testLabelArr &＃61;&＃61; 0 )testDateArr_negative &＃61; testDateArr[negative_index]fig &＃61; plt.figure()ax &＃61; fig.add_subplot(111)ax.scatter(testDateArr_positive[:,1], testDateArr_positive[:,2], marker&＃61;&＃39;x&＃39;, c&＃61;&＃39;red&＃39;)ax.scatter(testDateArr_negative[:, 1], testDateArr_negative[:, 2], marker&＃61;&＃39;o&＃39;, c&＃61;&＃39;black&＃39;)ax.plot(np.arange(0,10),(-np.arange(0,10)*weight_vector[1]-weight_vector[0])/weight_vector[2])plt.xlabel(&＃39;Clump Thickness&＃39;, fontsize&＃61;10)plt.ylabel(&＃39;Cell Size&＃39;, fontsize&＃61;10)plt.show()
接下来&＃xff0c;我们编写主函数&＃xff1a;
if name &＃61;&＃61; &＃39;main&＃39;:trainDateArr, trainLabelArr &＃61; loadTrainDataSet(&＃39;breast-cancer-train.csv&＃39;)testDateArr, testLabelArr &＃61; loadtestDataSet(&＃39;breast-cancer-test.csv&＃39;)weight_vector &＃61; calculate_regression_coefficient( trainDateArr, trainLabelArr )draw_testDate_scatterGraph(testDateArr,testLabelArr,weight_vector)errorRate &＃61; calculata_errorRate( testDateArr, testLabelArr, weight_vector )print(&＃39;错误率&＃xff1a;%f&＃39; % errorRate)print(&＃39;正确率&＃xff1a;%f&＃39; % (1-errorRate))
通过运行&＃xff0c;我们得到结果如下&＃xff1a;

正确率93%&＃xff0c;这已经很不错啦&＃xff01;

至此&＃xff0c;我们的 Logistic Regression就学习完毕啦&＃xff01;

参考文献&＃xff1a;
[1] 周志华《机器学习》
[2] Peter Harrington 《机器学习实战》

本博文为作者原创&＃xff0c;作品之著作权属本人所有&＃xff0c;未经许可禁止转载。

推荐阅读

spring
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
input
Python处理Word文档的高效技巧

本文详细介绍了如何使用Python处理Word文档，涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]

蜡笔小新 2024-12-23 10:40:32
input
Python Pandas 库中的 Series.round() 方法详解

本文介绍如何使用 Python 的 Pandas 库中 Series 对象的 round() 方法，对数值进行四舍五入处理。该方法在数据预处理和分析中非常有用。 ... [详细]

蜡笔小新 2024-12-23 12:13:19
grid
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
input
python3小游戏源代码_python 点球小游戏代码

#点球小游戏fromrandomimportchoiceimporttimescore[0,0]direction[left,center,right]defkick() ... [详细]

蜡笔小新 2024-12-23 19:17:34
text
深入理解Python函数：定义、调用、注释与参数

本文详细介绍了Python中函数的基本概念，包括函数的定义与调用、文档注释、参数传递（形参与实参）、返回值以及函数嵌套。通过具体示例和解释，帮助读者掌握函数在编程中的应用。 ... [详细]

蜡笔小新 2024-12-23 17:28:06
buffer
Python——对象自省

对象自省自省在计算机编程领域里，是指在运行时判断一个对象的类型和能力。dir能够返回一个列表，列举了一个对象所拥有的属性和方法。my_list[ ... [详细]

蜡笔小新 2024-12-23 12:55:35
input
理解反向投影技术及其应用

反向投影技术主要用于在大型输入图像中定位特定的小型模板图像。通过直方图对比，它能够识别出最匹配的区域或点，从而确定模板图像在输入图像中的位置。 ... [详细]

蜡笔小新 2024-12-23 12:24:22
input
使用Python计算文件的CRC32校验值

本文记录了一次对路由器固件分析时，如何利用Python计算文件的CRC32校验值。文中提供了完整的代码示例，并详细解释了实现过程。 ... [详细]

蜡笔小新 2024-12-22 20:58:18
list
使用Python批量处理图片尺寸调整

本文介绍了如何利用Python进行批量图片尺寸调整，包括放大和等比例缩放。文中提供了详细的代码示例，并解释了每个步骤的具体实现方法。 ... [详细]

蜡笔小新 2024-12-22 17:13:05
list
社交网络中的级联行为

社交网络中的级联行为 ... [详细]

蜡笔小新 2024-12-22 16:47:55
go
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
go
SVD与QR分解的Python实现及应用

本文介绍了SVD（奇异值分解）和QR分解的基本原理及其在Python中的实现方法。通过具体代码示例，展示了如何使用这两种矩阵分解技术处理图像数据和计算特征值。 ... [详细]

蜡笔小新 2024-12-22 14:57:42
input
深入解析CTF中的PWN挑战：Fastbin与堆溢出

本文将探讨2015年RCTF竞赛中的一道PWN题目——shaxian，重点分析其利用Fastbin和堆溢出的技巧。通过详细解析代码流程和漏洞利用过程，帮助读者理解此类题目的破解方法。 ... [详细]

蜡笔小新 2024-12-21 18:09:12
input
Python 条件与循环语句详解

本文详细介绍了 Python 中的条件语句和循环结构。主要内容包括：1. 分支语句（if...elif...else）；2. 循环语句（for, while 及嵌套循环）；3. 控制循环的语句（break, continue, else）。通过具体示例，帮助读者更好地理解和应用这些语句。 ... [详细]

蜡笔小新 2024-12-21 12:58:28

Ag冫g彡ie琪琪

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章