热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

1.2什么是数据挖掘

知识发现过程如图1.4所示,由以下步骤的迭代序列组成:(1)数据清理(消除噪声和删除不一致数据)

知识发现过程如图1.4所示,由以下步骤的迭代序列组成:
(1)数据清理(消除噪声和删除不一致数据)。
(2)数据集成(多种数据源可以组合在一起)。1
(3)数据选择(从数据库中提取与分析任务相关的数据)。
(4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)。2
(5)数据挖掘(基本步骤,使用智能方法提取数据模式)。
(6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)。
(7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。
步骤(1)~(4)是数据预处理的不同形式,为挖掘准备数据。数据挖掘步骤可能与用户或知识库交互。有趣的模式提供给用户,或作为新的知识存放在知识库中。

在这里插入图片描述

“数据挖掘是从大量数据中挖掘有趣模式和知识的过程。”
“数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。”

注释:

  1. 信息产业界的一个流行趋势是将数据清理和数据集成作为预处理步骤执行,结果数据存放在数据仓库中。
  2. 有时,数据变换和数据统一在数据选择过程之前进行,特别是在数据仓库化的情况下。可能还需要进行数据归约,以得到原始数据的较小表示,而不牺牲完整性。

推荐阅读
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • 本文深入解析了Django框架中的MVT(Model-View-Template)设计模式,详细阐述了其工作原理和应用流程。通过分析URL模式、视图、模型和模板等关键组件,读者将全面理解Django应用程序的架构体系,掌握如何高效地构建和管理Web应用。 ... [详细]
  • PHPCMS全站迁移时URL地址的更新与替换策略 ... [详细]
  • 在Java分层设计模式中,典型的三层架构(3-tier application)将业务应用细分为表现层(UI)、业务逻辑层(BLL)和数据访问层(DAL)。这种分层结构不仅有助于提高代码的可维护性和可扩展性,还能有效分离关注点,使各层职责更加明确。通过合理的设计和实现,三层架构能够显著提升系统的整体性能和稳定性。 ... [详细]
  • 提升 Kubernetes 集群管理效率的七大专业工具
    Kubernetes 在云原生环境中的应用日益广泛,然而集群管理的复杂性也随之增加。为了提高管理效率,本文推荐了七款专业工具,这些工具不仅能够简化日常操作,还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查,这些工具覆盖了集群管理的各个方面,帮助管理员更好地应对挑战。 ... [详细]
  • 提升Android开发效率:Clean Code的最佳实践与应用
    在Android开发中,提高代码质量和开发效率是至关重要的。本文介绍了如何通过Clean Code的最佳实践来优化Android应用的开发流程。以SQLite数据库操作为例,详细探讨了如何编写高效、可维护的SQL查询语句,并将其结果封装为Java对象。通过遵循这些最佳实践,开发者可以显著提升代码的可读性和可维护性,从而加快开发速度并减少错误。 ... [详细]
  • 在探讨Hibernate框架的高级特性时,缓存机制和懒加载策略是提升数据操作效率的关键要素。缓存策略能够显著减少数据库访问次数,从而提高应用性能,特别是在处理频繁访问的数据时。Hibernate提供了多层次的缓存支持,包括一级缓存和二级缓存,以满足不同场景下的需求。懒加载策略则通过按需加载关联对象,进一步优化了资源利用和响应时间。本文将深入分析这些机制的实现原理及其最佳实践。 ... [详细]
  • PHP自学必备:从零开始的准备工作与工具选择 ... [详细]
  • 探讨 jBPM 数据库表结构设计的精要与实践
    探讨 jBPM 数据库表结构设计的精要与实践 ... [详细]
  • 如何高效进行仓库管理——DAMA第十一章:数据仓库与商务智能的应用与实践
    本文深入探讨了数据仓库、数据挖掘及数据库的相关知识,特别聚焦于《DAMA-第十一章:数据仓库与商务智能》中的应用与实践。对于希望提升仓库管理效率的专业人士,本文提供了宝贵的技术指导和实践经验,帮助读者更好地理解和应用这些技术,从而优化仓库管理流程。 ... [详细]
  • 在构建品牌网站时,需遵循一系列关键原则与策略。对于缺乏经验的人来说,这往往是一个挑战。本文深入分析了常见问题及其成因,并提供了切实可行的解决方案,旨在帮助读者有效应对品牌网站建设中的难题。 ... [详细]
  • 在现代办公环境中,高效的办公软件是提升工作效能的关键。本文将推荐几款实用且专业的办公软件,帮助用户提高工作效率。首先,微软Office套件中的Word、Excel和PowerPoint依然是最常用的工具,它们凭借强大的功能和易用性,成为众多用户的首选。此外,本文还将介绍其他一些创新的办公软件,如Google Workspace和Notion,这些工具在协作和项目管理方面表现出色,值得尝试。 ... [详细]
  • Matplotlib在数据科学中的可视化应用与技术解析
    Matplotlib和数据可视化 数据的处理、分析和可视化已经成为Python近年来最为重要的应用领域之一,其中数据的可视化指的是将数据呈现为漂亮的统计图表ÿ ... [详细]
  • 数据分析的4个目的3个意义,新手小白一定要看!-​如今,很多公司在招聘的时候都不约而同地对应聘者加上了一条“具备数据分析能力”的要求,这也从侧面反映了现在很多公司对数据分析非常重视 ... [详细]
  • 题目探讨了在无向图中求解点连通数的问题,具体涉及UVA1660和POJ1966两个经典问题。通过最小割算法的应用,分析了如何高效地确定网络中的关键节点和路径,为电缆电视网络的优化设计提供了理论支持。该研究不仅验证了最小割算法的有效性,还为进一步探索复杂网络的连通性和鲁棒性奠定了基础。 ... [详细]
author-avatar
小白学习哈
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有