热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

机器学习实战之第一章机器学习基础

ApacheCN——专注于优秀开源项目维护的组织,不止于权威的文

第1章 机器学习基础

技术分享

机器学习 概述

机器学习就是把无序的数据转换成有用的信息。


  1. 获取海量的数据

  2. 从海量数据中获取有用的信息

我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的意义。

机器学习 场景

例如:识别动物猫
模式识别(官方标准):人们通过大量的经验,得到结论,从而判断它就是猫。
机器学习(数据学习):人们通过阅读进行学习,观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴,得到结论,从而判断它就是猫。
深度学习(深入数据):人们通过深入了解它,发现它会‘喵喵‘的叫、与同类的猫科动物很类似,得到结论,从而判断它就是猫。(深度学习常用领域:语音识别、图像识别)
模式识别(pattern recognition): 模式识别是最古老的(作为一个术语而言,可以说是很过时的)。
我们把环境与客体统称为“模式”,识别是对模式的一种认知,是如何让一个计算机程序去做一些看起来很“智能”的事情。
通过融于智慧和直觉后,通过构建程序,识别一些事物,而不是人,例如: 识别数字。
机器学习(machine learning): 机器学习是最基础的(当下初创公司和研究实验室的热点领域之一)。
在90年代初,人们开始意识到一种可以更有效地构建模式识别算法的方法,那就是用数据(可以通过廉价劳动力采集获得)去替换专家(具有很多图像方面知识的人)。
“机器学习”强调的是,在给计算机程序(或者机器)输入一些数据后,它必须做一些事情,那就是学习这些数据,而这个学习的步骤是明确的。
机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科。
深度学习(deep learning): 深度学习是非常崭新和有影响力的前沿领域,我们甚至不会去思考-后深度学习时代。
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
参考地址:
http://www.csdn.net/article/2015-03-24/2824301
http://baike.baidu.com/link?url=76P-uA4EBrC3G-I__P1tqeO7eoDS709Kp4wYuHxc7GNkz_xn0NxuAtEohbpey7LUa2zUQLJxvIKUx4bnrEfOmsWLKbDmvG1PCoRkJisMTQka6-QReTrIxdYY3v93f55q

机器学习已应用于多个领域,远远超出大多数人的想象,横跨:计算机科学、工程技术和统计学等多个学科。



  • 搜索引擎: 根据你的搜索点击,优化你下次的搜索结果。

  • 垃圾邮件: 会自动的过滤垃圾广告邮件到垃圾箱内。

  • 超市优惠券: 你会发现,你在购买小孩子尿布的时候,售货员会赠送你一张优惠券可以兑换6罐啤酒。

  • 邮局邮寄: 手写软件自动识别寄送贺卡的地址。

  • 申请贷款: 通过你最近的金融活动信息进行综合评定,决定你是否合格。


机器学习 组成


主要任务



  • 分类:将实例数据划分到合适的类别中。

  • 回归:主要用于预测数值型数据。(示例:数据通过给定数据点来拟合最优曲线)


监督学习



  • 必须确定目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。 (包括:分类和回归)

  • 样本集:训练数据 + 测试数据

    • 训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)

    • 特征通常是训练样本集的列,它们是独立测量得到的。

    • 目标变量: 目标变量是机器学习预测算法的测试结果。

      • 在分类算法中目标变量的类型通常是标称型(如:真与假),而在回归算法中通常是连续型(如:1~100)。





  • 知识表示

    1. 可以采用规则集的形式【例如:数学成绩大于90分为优秀】

    2. 可以采用概率分布的形式【例如:通过统计分布发现,90%的同学数学成绩,在70分以下,那么大于70分定为优秀】

    3. 可以使用训练样本集中的一个实例【例如:通过样本集合,我们训练出一个模型实例,得出 年轻,数学成绩中高等,谈吐优雅,我们认为是优秀】



非监督学习



  • 数据没有类别信息,也不会给定目标值。

  • 聚类:在无监督学习中,将数据集分成由类似的对象组成多个类的过程称为聚类。

  • 密度估计:将寻找描述数据统计值的过程称之为密度估计。【就是:根据训练样本确定x的概率分布】

  • 此外,无监督学习还可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。


训练过程

技术分享

算法汇总

技术分享

机器学习 使用


选择算法需要考虑的两个问题



  1. 算法场景

    • 预测明天是否下雨,因为可以用历史的天气情况做预测,所以选择监督学习算法

    • 给一群陌生的人进行分组,但是我们并没有这些人的类别信息,所以选择无监督学习算法、通过他们身高、体重等特征进行处理。



  2. 需要收集或分析的数据是什么


举例

技术分享

机器学习 开发流程

* 收集数据: 收集样本数据
* 准备数据: 注意数据的格式
* 分析数据: 为了确保数据集中没有垃圾数据;
如果是算法可以处理的数据格式或可信任的数据源,则可以跳过该步骤;
另外该步骤需要人工干预,会降低自动化系统的价值。
* 训练算法: [机器学习算法核心]如果使用无监督学习算法,由于不存在目标变量值,则可以跳过该步骤
* 测试算法: [机器学习算法核心]评估算法效果
* 使用算法: 将机器学习算法转为应用程序

Python语言 优势



  1. 可执行伪代码

  2. Python比较流行:使用广泛、代码范例多、丰富模块库,开发周期短

  3. Python语言的特色:清晰简练、易于理解

  4. Python语言的缺点:唯一不足的是性能问题

  5. Python相关的库

    • 科学函数库:SciPyNumPy(底层语言:C和Fortran)

    • 绘图工具库:Matplotlib






  • 作者:片刻 1988

  • GitHub地址: https://github.com/apachecn/MachineLearning

  • 版权声明:欢迎转载学习 => 请标注信息来源于 ApacheCN


推荐阅读
  • 如何解决TS1219:实验性装饰器功能可能在未来版本中更改的问题
    本文介绍了两种方法来解决TS1219错误:通过VSCode设置启用实验性装饰器,或在项目根目录下创建配置文件(jsconfig.json或tsconfig.json)。 ... [详细]
  • iOS snow animation
    CTSnowAnimationView.hCTMyCtripCreatedbyalexon1614.Copyright©2016年ctrip.Allrightsreserved.# ... [详细]
  • 第七卷《英才》强调,即使有良药,若不对症,效果也不如低等药物;即使有贤才,若不适用,效果也不如普通人。文中通过多个比喻,阐述了人才使用的重要性,指出合适的人才在适当的时间和场合才能发挥最大效用。 ... [详细]
  • packagecom.panchan.tsmese.utils;importjava.lang.reflect.ParameterizedType;importjava.lang. ... [详细]
  • 本文介绍了一种支付平台异步风控系统的架构模型,旨在为开发类似系统的工程师提供参考。 ... [详细]
  • 华为捐赠欧拉操作系统,承诺不推商用版
    华为近日宣布将欧拉开源操作系统捐赠给开放原子开源基金会,并承诺不会推出欧拉的商用发行版。此举旨在推动欧拉和鸿蒙操作系统的全场景融合与生态发展。 ... [详细]
  • 本文介绍了多种开源数据库及其核心数据结构和算法,包括MySQL的B+树、MVCC和WAL,MongoDB的tokuDB和cola,boltDB的追加仅树和mmap,levelDB的LSM树,以及内存缓存中的一致性哈希。 ... [详细]
  • 解决SQL Server数据库sa登录名无法连接的问题
    在安装SQL Server数据库后,使用Windows身份验证成功,但使用SQL Server身份验证时遇到问题。本文将介绍如何通过设置sa登录名的密码、启用登录名状态以及开启TCP协议来解决这一问题。 ... [详细]
  • 网络爬虫的规范与限制
    本文探讨了网络爬虫引发的问题及其解决方案,重点介绍了Robots协议的作用和使用方法,旨在为网络爬虫的合理使用提供指导。 ... [详细]
  • 自动验证时页面显示问题的解决方法
    在使用自动验证功能时,页面未能正确显示错误信息。通过使用 `dump($info->getError())` 可以帮助诊断和解决问题。 ... [详细]
  • 蒜头君的倒水问题(矩阵快速幂优化)
    蒜头君将两杯热水分别倒入两个杯子中,每杯水的初始量分别为a毫升和b毫升。为了使水冷却,蒜头君采用了一种特殊的方式,即每次将第一杯中的x%的水倒入第二杯,同时将第二杯中的y%的水倒入第一杯。这种操作会重复进行k次,最终求出两杯水中各自的水量。 ... [详细]
  • 经过一年的思考,我发现自己对开发的兴趣并不浓厚,而对算法研究则更加热衷。本文将探讨开发与算法之间的本质差异,并分享我的未来学习计划。 ... [详细]
  • Flutter 2.* 路由管理详解
    本文详细介绍了 Flutter 2.* 中的路由管理机制,包括路由的基本概念、MaterialPageRoute 的使用、Navigator 的操作方法、路由传值、命名路由及其注册、路由钩子等。 ... [详细]
  • 零拷贝技术是提高I/O性能的重要手段,常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]
  • 本文详细介绍了在 React Native 开发过程中遇到的 'Could not connect to development server' 错误及其解决方法。该问题不仅影响开发效率,而且难以通过网络资源找到确切的解决方案。本文将提供详细的步骤,帮助开发者快速解决这一常见问题。 ... [详细]
author-avatar
缘来是你2502855331
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有