热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据挖掘经典书籍

记得2008年初,当我刚接触到数据挖掘的时候,看过一篇文章,介绍了数据挖掘方面有三本经典书籍:(1)J.HanandM.Ka
         记得2008年初,当我刚接触到数据挖掘的时候,看过一篇文章,介绍了数据挖掘方面有三本经典书籍:
(1) J. Han and M. Kamber, Data Mining: Concepts andTechniques.
         本书从数据库角度看待数据挖掘,强调效率(Efficiency)。按照本书观点,数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。
(2) I.H. Written and E.Frank. Data Mining: Practical MachineLearnings and Techniques.
        本书从机器学习角度看待数据挖掘,强调有效(Effectiveness)。按照这本书的观点,数据挖掘是从数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
(3) D. Hand, H.Mannila and P. Smith, Principle of DataMining.
       本书从统计学的角度看待数据挖掘,因为统计学是一门数学,所以本书强调数学上的正确性(Validity)。按照本书观点,数据挖掘是分析(往往是大量的)数据集以找到未曾预料的关系,并以可理解又有用的新颖方式呈现给数据用户的过程。
        这几年实际做数据挖掘,补充基础知识时也主要以这几本书为指导。然后最后自己用来研读的书却是以下这本:
(4)Pang-Ning Tan, Vipin Kumar etc. Introduction to DataMining
                             (http://book.douban.com/subject/1465939/)。
        国内目前有翻译版(http://book.douban.com/subject/1786120/),这是我现在觉得最好的数据挖掘教材。关于分类、关联规则、聚类每一主题都分两章来讲述:第一章讲基本部分,第二章讲高级部分,让人由浅入深。另有单独的一章介绍异常检测。本书的第一作者是物理背景出身,所以讲解很重视对于算法的理解(优缺点与适用范围等)。本书能找到PDF版完整的习题答案,非常适合于自学。
       若要从以上三本书再推荐另一本入门书,我会推荐I.H.Written的那本,这本书第I部分以输入、输出、算法、评估的脉络来讲解数据挖掘;第II部分介绍Weka软件使用。读这本书的好处读了之后马上可以用Weka来实验各种数据挖掘算法。
       其次推荐的是DavidHand的《数据挖掘原理》(http://book.douban.com/subject/1103515/),本书作者是一名统计学家,所以里面会涉及到数据挖掘相对于统计的独特之处的内容,非常有价值;另外,本书以约化主义的观点来看待数据挖掘算法,认为有了数据集与明确的数据挖掘任务,数据挖掘算法可以看成是{模型结构、评分函数、搜索方法、数据管理技术}的四元组,然后逐一来讲解每一数据挖掘算法组件,让人觉得清楚明了。本书的第二章“测量与数据”也是很有价值的,因为我们虽然通过数据来做推断,但是数据是通过测量理论与事实(Reality)相联系的。

        最不怎么推荐的是《数据挖掘:概念与技术》,虽然我是从这本书的第一版最初得知数据挖掘这一概念。2005年10月份,我在海淀图书城逛,想看看有什么好书可以带到南极去看,当时发觉了这本书的第一版。看了看前言,就买了下来,因为原来只接触过数据库的我,数据挖掘这一概念太吸引自己了。虽然在南极期间自己只是将这本书盖了两个南极的纪念章,而没有真正看,但毕竟它在自己心中播种下了“数据挖掘”的种子。07年底转行做计算机的时候,虽然最初不是申请的数据挖掘的职位,当公司让我当“数据挖掘工程师”时,我还是很高兴地接受了。这五年来,我见证了数据挖掘这一行业的如火如荼的发展,也很庆幸自己入对了行,也要很感激这本书的作者与翻译者吧。从书的内容看,这本书将数据挖掘看成是数据库技术的自然演化,所以第2章讲的是数据仓库与OLAP,但是这部分内容对于怎样建数据仓库其实没有太大的帮助。数据挖掘作为一门交叉学科,一般认为其最重要的三门学科基础是机器学习、统计学与数据库技术。但是个人认为随着大数据时代的来临,传统数据库技术所起的作用在减弱,因为很多进行的数据挖掘的数据根本不会先被放到数据库中,而是直接通过文件来存储。本书的第二版中虽然增加了时间序列挖掘、图挖掘、社交网络分析、多媒体挖掘等新的内容,但这只是增加了广度,而没有让我们对数据挖掘的核心部分有更深的理解。

                                                                                                                                 转自:http://blog.sina.com.cn/s/blog_60d6fadc01016vam.html


推荐阅读
  • 提升Python编程效率的十点建议
    本文介绍了提升Python编程效率的十点建议,包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间,提高编程效率。同时,还提供了相关参考链接供读者深入学习。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了贝叶斯垃圾邮件分类的机器学习代码,代码来源于https://www.cnblogs.com/huangyc/p/10327209.html,并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]
  • 支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度
    介绍在我们学习机器算法的时候,可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器,但你要明白这些兵器是需要在合适的时间合理 ... [详细]
  • 本人学习笔记,知识点均摘自于网络,用于学习和交流(如未注明出处,请提醒,将及时更正,谢谢)OS:我学习是为了上 ... [详细]
  • plt python 画直线_机器学习干货,一步一步通过Python实现梯度下降的学习
    GradientDescent-梯度下降梯度下降法(英语:Gradientdescent)是一个一阶最优化算法,通常也称为最速下降法。要使用梯度下降法找 ... [详细]
  • 马尔可夫决策过程Markov Decision Process,MDPKintoki
    Originalurl:http:www.tuicool.comarticlesb6BjAva1.马尔可夫模型的几类子模型我想大家一定听说过马尔科夫链(MarkovChain)& ... [详细]
  • 深度学习与神经网络——邱锡鹏
    深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络:一种以(人工))神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构:路线图:顶 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 在本教程中,我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后,我们将看到使用Flask创建AP ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • Python入门后,想要从事自由职业可以做哪方面工作?1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ... [详细]
author-avatar
庄乐星
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有