建模问题 从数据集中,统计、推理 学习到决策函数 y=f(X)y=f(X)y=f(X)
评估问题 对于一个输入XXX,决策函数的输出yyy跟实际的值之间 有一定的误差,需要构建评估系统,根据误差来判断决策函数的优劣
优化问题 找到最优解
监督学习、无监督学习、半监督学习 监督学习监督学习监督学习:数据集包含数据标记,S(X,y) 无监督无监督无监督:数据集不含数据标记,S(X) 半监督半监督半监督:两者的结合,先无监督划分类别,然后使用有监督训练模型
批量学习、增量学习
批量学习批量学习批量学习:把学习过程、应用过程 分开,使用全部的训练数据来学习模型,然后在实际的场景中应用,效果不理想时,重回到训练过程。
增量学习增量学习增量学习: 将学习过程 、应用过程统一起来,在实际应用中,以增量的方式学习新的内容,边学边用
基于实例的学习,基于模型的学习
基于实例基于实例基于实例:根据以往的经验,寻找与未知样本xix_ixi相似的样本,以其输出作为预测结果
基于模型基于模型基于模型:根据以往的经验,建立联系输入、输出的数学模型y=f(X)y=f(X)y=f(X),将未知样本xix_ixi代入模型,得预测结果
数据的采集 a. 数据检索、数据挖掘,根据已有的数据总结归纳出新的数据 结构化结构化结构化的数据:关系数据库 非结构化非结构化非结构化的数据:文本、图片、语音、视频 等
b. 爬虫,无数据的情况下,爬取网络数据
数据清洗 处理缺失值、异常值
特征工程 特征的抽取,选择,转换
常见问题