热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

2.3logistic回归损失函数

为了训练logistic回归模型的参数w以及b,需要定义一个成本函数。让我们来看一下。用logistic回归来训练的成本函数。一、扼要重述回忆一下,这张幻灯片的函数,你的输出y^s

为了训练logistic回归模型的参数w以及b,需要定义一个成本函数。

让我们来看一下。用logistic回归来训练的成本函数。

一、扼要重述

回忆一下,这张幻灯片的函数,你的输出y^=sigmoid(w^Tx+b),这里定义为sigmoid(z)。

为了让模型来通过学习调整参数,要给一个m个样本的训练集。很自然地,你想通过在训练集,找到参数w和b,来得到你的输出,对训练集中预测值,将它写成y^(l),我们希望它会接近于在训练集中的y^(i)值。

为了让上面的方程更详细一些,需要说明上面这些定义的y^,是对一个训练样本x来说的,对于每一个训练样本,使用这样带有括号的上标。方便引用说明,还有区分样本。

你的训练样本(i),对应的预测值是y^(i)是用训练样本,通过sigmoid函数作用到wT*x^(i)+b得到的,你也可以将z^(i)定义成z(i)=wT*x^(i)+b。

在这门课里,我们将使用这个符号约定,就是这个上标(i)来指明数据,表示x或者y或者z和第i个训练样本有关,这就是上标(i)的含义。

二、损失函数/误差函数

现在我们来看看损失函数或者叫做误差函数,它们可以用来衡量算法的运行情况。你可以定义为损失为y^和y的差的平方,或者它们差的平方的1/2。

结果表明,你可以这样做。但通常在logistic回归中,大家都不这么做。

因为当你学习这些参数的时候,你会发现之后讨论的优化问题会变成非凸的最后,会得到很多个局部最优解。梯度下降法,可能找不到全局最优值。

如果你不能理解这几句话,别担心,我们会在后面的教学中讲到它。但是这个直观理解就是,我们通过定义这个损失函数L,来衡量你的预测值y^和y^的实际值有多接近。

误差平方,看起来似乎是一个合理的选择。但用这个的话,梯度下降法就不太好用。

在logistic回归中,我们会定义,一个不同的损失函数,它起着与误差平方相似的作用。这些会给我们一个凸的优化问题。

在后面的教学能看到,它很容易去做优化。

在logistic回归中,我们用的会是这里写的损失函数。它是-(y*log(y^)+(1-y)log(1-y^)).

直观地看看为何这个损失函数能起作用。

记得如果我们使用,误差平方越小越好。对于这个logistic回归的损失函数,同样地,我们也想让它尽可能地小。

为了更好地理解,为什么它能够起作用,让我们来看两个例子。

在第一个例子中,我们说y=1时,就是这第一项L(y^,y),带个符号就是-log(y^)。因为如果y=1,那么第二项1-y就等于0.这就是说当y=1时,你想让-log(y^)尽可能小,这意味着,想让log(y^)够大。

尽可能地大,这样就意味,你想要y^够大,但是因为y^是simoid函数得出的,永远不会大于1。也就是说,如果y=1时,你会想让y^尽可能地大,但它永远不会大于1。

另一个情况就是,如果y=0,损失函数的第一项等于0。因为y是0,然后第二项就是这个损失函数变成-log(1-y^)。

在学习过程中,想让损失函数小一些,也就意味着,你想要log(1-y^)够大,因为这里有一个符号。

通过这一系列推理,你可以得出,损失函数让y^尽可能地小。

再次,因为y^只能介于0到1之间,这就是说,当y=0时,损失函数会让这些函数,让y^尽可能地接近0,有很多函数都能达到这个效果。如果y=1,我们尽可能让y^很大。如果y=0,尽可能让y^足够小。

绿色字体这里,稍微解释了,为什么用这个作为损失函数。

后面我们会提供选修课,给出更正式的这样做的原因。解释为什么在logistic回归中,要用这个形式的损失函数。

最后说一下,损失函数是在单个训练样本中定义的。它衡量了在单个训练样本上的表现。

3、成本函数

下面我们要定义一个成本函数。它衡量的是在全体训练样本上的表现。这个成本函数J,根据之前得到的两个函数w和b,J等于1/m乘以求和L(y^(i),y^(i)),即所有训练样本的损失函数和。

而y^是用一组特定的参数w和b,通过logistic回归算法,得出的预测输出值。

所以,把这个展开,这等于-1/m,从i=1到m对损失函数求和,这是y^(i)*log(y^(i)),加上(1-y^(i)*log(1-y^(i))。我在这里划伤方括号,符号在这一堆式子的外面。

术语这样来用,损失函数只适用于,像这样的单个训练样本。这个成本函数,基于参数的总成本。

所以,在训练logistic回归模型时,我们要找到合适的参数w和b,让下面这里的成本函数J尽可能地小。

你刚看到了,logistic回归算法的过程,以及训练样本的损失函数,还有和参数相关的总体成本函数。

结果表明,logistic回归,可以被看作是一个非常小的神经网络。

下节预告】在下一讲中,我们将会讲到,直观地去理解神经网络能做什么,看看如何将logistic回归看作一个非常小的神经网络。


推荐阅读
  • 深入浅出:Hadoop架构详解
    Hadoop作为大数据处理的核心技术,包含了一系列组件如HDFS(分布式文件系统)、YARN(资源管理框架)和MapReduce(并行计算模型)。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]
  • 计算机视觉初学者指南:如何顺利入门
    本文旨在为计算机视觉领域的初学者提供一套全面的入门指南,涵盖基础知识、技术工具、学习资源等方面,帮助读者快速掌握计算机视觉的核心概念和技术。 ... [详细]
  • 深度学习与神经网络课程总结
    本文档总结了神经网络和深度学习课程中的关键概念和理论,包括机器学习的基本要素、算法类型以及数据特征表示等。 ... [详细]
  • 探索CNN的可视化技术
    神经网络的可视化在理论学习与实践应用中扮演着至关重要的角色。本文深入探讨了三种有效的CNN(卷积神经网络)可视化方法,旨在帮助读者更好地理解和优化模型。 ... [详细]
  • 吴石访谈:腾讯安全科恩实验室如何引领物联网安全研究
    腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统,并远程控制汽车,展示了其在汽车安全领域的强大实力。近日,该实验室负责人吴石接受了InfoQ的专访,详细介绍了团队未来的重点方向——物联网安全。 ... [详细]
  • 知识图谱与图神经网络在金融科技中的应用探讨
    本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲,探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]
  • 计算机学报精选论文概览(2020-2022)
    本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文,旨在为即将投稿的研究者提供参考。 ... [详细]
  • LeetCode 实战:寻找三数之和为零的组合
    给定一个包含 n 个整数的数组,判断该数组中是否存在三个元素 a、b、c,使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]
  • 本文探讨了Lua中元表和元方法的使用,通过具体的代码示例展示了如何利用这些特性来实现类似C语言中的运算符重载功能。 ... [详细]
  • Java数组面试常见问题及解析
    在Java编程面试中,数组作为基础且重要的知识点,经常成为考察的重点。本文将探讨数组的基础知识和相关面试题,帮助考生更好地准备面试。 ... [详细]
  • 本文介绍了一个基础算法题目,旨在通过求解特定范围内所有数字的阶乘之和来提升编程技能。重点在于理解和实现双重循环结构。 ... [详细]
  • 本文详细介绍了在使用Node.js处理JWT时遇到的'invalid algorithm'错误的解决方案。问题源于生成和验证token时使用的算法不一致,具体表现为生成token时使用HS256算法,而在验证时误用了RS256算法。 ... [详细]
  • 【Java数据结构和算法】008栈
    目录0、警醒自己一、栈的应用场景和介绍1、栈的应用场景一个实际的场景:我的思考:2、栈的介绍入栈演示图:出栈演示图 ... [详细]
  • 时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接,可以构建多维度报表,揭示数据的趋势、规律及异常情况。 ... [详细]
  • 有向无环图(DAG)的两种拓扑排序方法详解
    本文介绍了有向无环图(DAG)的两种拓扑排序方法。第一种方法通过不断移除没有前驱的顶点来实现排序;第二种方法则利用深度优先搜索(DFS),记录每个节点的首次和最后访问时间,最终根据这些时间的逆序得到拓扑排序结果。 ... [详细]
author-avatar
_子竹_
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有