当前位置: 开发笔记 > 大数据 > 正文

数据统计学习的5个基本流程

作者：lksxq_468 | 来源：互联网 | 2023-09-24 15:53

统计学、大数据应用很广泛，常常被提及！统计学习也有一定的规律流程，下面我们大圣众包小编分享一位朋友关于统计学习流程步骤的看法，

　统计学、大数据应用很广泛&＃xff0c;常常被提及&＃xff01;统计学习也有一定的规律流程&＃xff0c;下面我们大圣众包小编分享一位朋友关于统计学习流程步骤的看法&＃xff0c;看看他怎么说。

　　统计学习现在市面上谈论到的数据挖掘基本上都是基于统计学习的监督学习或非监督学习问题。尤其以监督学习应用面更广。

　　统计学习的一般流程

　　得到一个有限的数据集合

　　确定所有的学习模型集合

　　确定模型选择的准则&＃xff0c;就是学习的策略

　　实现求解最优模型的算法并通过学习方法选择最优模型

　　利用学习得到的最优模型对新数据进行分析或预测

　　步骤一&＃xff1a;得到一个有限的数据集合

　　涉及到以下多个流程&＃xff1a;

　　1、数据的采集

　　2、原始数据的格式化、标准化

　　3、原始去噪&＃xff0c;去掉错误的值(而不是误差值&＃xff0c;这里又涉及到一个复杂的问题&＃xff0c;如何界定错误数据)

　　4、预处理(针对具体需要研究的问题、抽取相应地特征组成需要研究的数据集合)

　　步骤二&＃xff1a;确定所有的学习模型集合

　　这个问题取决于我们选择怎么样的学习方法。常见得学习方法有&＃xff1a;

　　1、感知机模型

　　2、k近邻法

　　3、朴素贝叶斯法

　　4、决策树

　　5、逻辑斯谛回归和最大熵模型

　　6、支持向量机

　　7、提升方法AdaBoost

　　8、EM算法

　　9、隐马尔可夫模型

　　10、条件随机场

　　而且这些算法还可以进行变异、组合然后形成新的算法模型。也是通常认为中数据挖掘比较核心的部分。

　　步骤三&＃xff1a;确定模型选择的策略

　　一般来说&＃xff0c;当你确定了你的学习方法后&＃xff0c;在学习的过程中会产生很多个模型。而如何在这些模型中间挑选最优的模型&＃xff0c;成为了我们亟待解决的问题。

　　一般衡量一个模型的优秀程度我们使用两个指标&＃xff1a;

　　1、拟合能力

　　2、泛化能力

　　拟合能力

　　表示模型的计算结果和实际结果的相差程度&＃xff0c;我们一般使用风险函数来衡量。而风险函数是损失函数的期望。所以我们其实是使用损失函数来衡量一个模型的期望。

　　常见的损失函数:

　　1、0-1损失函数

　　2、平分损失函数

　　3、绝对值损失函数

　　4、对数损失函数

　　损失函数越小&＃xff0c;模型的拟合能力就越好。

　　泛化能力泛化能力是指模型对新数据的预测能力。一般来说&＃xff0c;越复杂的模型的拟合能力越强&＃xff0c;但是泛化能力越弱。所以我们需要选择一个适当复杂度的模型&＃xff0c;使其泛化能力和拟合能力都足够强。

　　而衡量一个模型同时具有较好地泛化能力和拟合能力&＃xff0c;我们一般用结构风险函数。

　　结构风险函数是在风险函数的基础上面加上一个罚项。通过罚项来降低复杂度高的模型的结构风险函数值。从而达到筛选出合适的复杂度的模型的目的。

　　罚项一般取特征空间w的范数&＃xff0c;一般有&＃xff1a;

　　1、L0范数

　　2、L1范数

　　3、L2范数

　　4、核范数…

　　步骤四&＃xff1a;实现求解最优模型的算法并通过学习方法选择最优模型

　　求解最优模型的算法其实就是求解结构风险函数最小值得算法,即结构风险函数最优化的问题。

　　如果结构风险函数在我们所关心的区域中是凸函数的话&＃xff0c;那么任何局部最小解也是全局最优解。现在已经有稳定&＃xff0c;快速的数值计算方法来求二次可微地凸函数的最小值。

　　然而&＃xff0c;很多时候我们没有办法通过结构风险函数直接算出它的最小值。我们只能通过一些迭代的方式获得局部最优解。

　　常见的通过迭代的方式获得局部最优解的算法有&＃xff1a;

　　1、梯度下降法

　　2、牛顿法

　　3、共轭梯度法

　　4、线性搜索

　　5、置信域方法

　　另外还有一些算法&＃xff1a;

　　1、模拟退火

　　2、遗传算法

　　3、类免疫算法

　　4、演化策略

　　5、差异演化算法

　　6、微粒群算法

　　7、神经网络

　　8、支持向量机

　　步骤五&＃xff1a;利用学习得到的最优模型对新数据进行分析或预测

　　到这一步一般来说已经成功了&＃xff0c;然后往往现实是残酷的&＃xff0c;辛辛苦苦20年&＃xff0c;一朝回到解放前。

　　往往学习得到的模型在实际使用过程当中并不是那么的理想。这里面有很多种原因&＃xff1a;

　　有可能是原始数据的原因

　　有可能是特征选择的原因

　　有可能是模型的原因

　　有可能是最优模型算法的问题

　　有可能是代码错误

　　总之&＃xff0c;以上的所有步骤的所有细节都可能导致你的模型不够优秀。这就需要你再次的思考这个问题&＃xff0c;去不断的优化你的模型。直到得到一个不错的模型。

　　小结

　　其实数据挖掘涉及的东西远比我上面说的这点东西多的多&＃xff0c;我上面提到的还只是监督学习。就光我上面提到的几个步骤。其实每一个步骤都有很多很多东西可以讲&＃xff0c;可以研究&＃xff0c;工程方面的、算法理论方面的等等等等。

　　一入数据挖掘深似海&＃xff0c;从此奋斗到天明。

　　数据挖掘还是很有意思的&＃xff0c;你可以用机器的力量、数学的力量理解世界的运行规律。去预测他或者利用你研究到的东西做一些有意思的事情。

推荐阅读

神经网络
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
spark
知识图谱与图神经网络在金融科技中的应用探讨

本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲，探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]

蜡笔小新 2024-11-21 15:02:52
spark
深度学习与神经网络课程总结

本文档总结了神经网络和深度学习课程中的关键概念和理论，包括机器学习的基本要素、算法类型以及数据特征表示等。 ... [详细]

蜡笔小新 2024-11-26 11:31:09
hive
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
hive
【Java数据结构和算法】008栈

目录0、警醒自己一、栈的应用场景和介绍1、栈的应用场景一个实际的场景：我的思考：2、栈的介绍入栈演示图：出栈演示图 ... [详细]

蜡笔小新 2024-11-27 12:54:42
hive
[编程题] LeetCode上的Dynamic Programming(动态规划)类型的题目

继上次把backTracking的题目做了一下之后：backTracking，我把LeetCode的动态规划的题目又做了一下，还有几道比较难的Medium的题和Hard的题没做出来，后面会继续 ... [详细]

蜡笔小新 2024-11-26 14:31:10
yarn
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
yarn
实用浏览器插件与高效工具推荐

本文旨在介绍一系列提升工作效率的浏览器插件和实用小工具，帮助用户在日常工作中更加便捷高效。内容由原作者授权发布。 ... [详细]

蜡笔小新 2024-11-26 10:10:09
yarn
使用R语言进行Foodmart数据的关联规则分析与可视化

本文探讨了如何利用R语言中的arules和arulesViz包对Foodmart数据集进行关联规则的挖掘与可视化。文章首先介绍了数据集的基本情况，然后逐步展示了如何进行数据预处理、规则挖掘及结果的图形化呈现。 ... [详细]

蜡笔小新 2024-11-24 19:13:01
yarn
微信平台上的HTML5游戏开发心得

近期，微信公众平台上的HTML5游戏引起了广泛讨论，预示着HTML5游戏将迎来新的发展机遇。磊友科技的赵霏，作为一名HTML5技术的倡导者，分享了他在微信平台上开发HTML5游戏的经验和见解。 ... [详细]

蜡笔小新 2024-11-13 16:56:47
yarn
Python 3 Scrapy 框架执行流程详解

本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架，包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架，适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]

蜡笔小新 2024-11-12 10:51:15
yarn
K-均值聚类算法：原理与应用详解

K-均值聚类算法是一种经典的划分方法，广泛应用于数据挖掘和机器学习领域。该算法通过将数据集划分为多个互斥的簇，确保每个对象仅归属于一个簇。然而，这种严格的归属要求忽略了潜在的离群点和数据的复杂性，限制了其在某些场景下的适用性。为了提高算法的鲁棒性和灵活性，研究者们提出了多种改进方法，如引入模糊隶属度和基于密度的聚类技术。这些改进不仅提升了算法的性能，还扩展了其在实际问题中的应用范围。 ... [详细]

蜡笔小新 2024-11-10 13:52:16
数据分析
业务团队与独立团队在数据分析领域的效能对比：谁更胜一筹？

业务团队与独立团队在数据分析领域的效能对比：谁更胜一筹？ ... [详细]

蜡笔小新 2024-11-06 17:18:07
数据分析
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
数据分析
PHP开发人员薪资水平分析：工程师平均工资概况

PHP开发人员薪资水平分析：工程师平均工资概况 ... [详细]

蜡笔小新 2024-11-04 17:10:56

lksxq_468

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章