深度学习的第一步从机器学习开始!
机器学习就是把无需的数据转换成有用的信息!!!
机器学习的数据一般称为特征值
特征值分类:数值型(一般是十进制数字)、二值型(0或1)、枚举类型
机器学习的主要任务就是分类!!!
目标变量是机器学习算法的预测结果,在分类算法种目标变量的类型通常是标称型的,而在回归算法种通常是连续型的。训练样本集必须知道目标变量的值,以便机器去学校算法可以发现特征和目标变量之间的关系
为了测试机器学习学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据(当机器学习程序开始运行的时候,使用训练样本集作为算法的输入,训练完成后输入测试样本。输入测试样本时并不提高样本的目标变量,由程序决定样本属于哪个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别,就可以得出算法的实际精确度)
机器学习分类:
- 分类和回归属于监督学习I(这类算法必须知道预测什么,即目标变量的分类信息)
- 无监督学习不好给定目标值,在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称之为密度估计。
如何选择合适的算法?
- 如果目标变量是离散型,选择分类算法
- 如果目标变量是连续型,选择回归算法
- 如果不想预测目标变量的值,可以选择无监督算法,进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求,使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。
开发机器学习的步骤:收集数据、准备输入数据、分析输入数据、训练算法、测试算法、使用算法。
编程基础:Python语言,numpy库(如果有时间的话可以了解一下C++/C语言)
编写代码环境(我推荐jupyter notebooks)
// 安装 jupyter库
pip intall jupyter
// 打开 jupyter
jupyter notebooks
新建一个.ipynb文件