《R语言数据挖掘》1.2数据源

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章&＃xff0c;第1.2节&＃xff0c;作者&＃xff3b;哈萨克斯坦&＃xff3d;贝特·麦克哈贝尔&＃xff08;Bater Makhabel&＃xff09;&＃xff0c;李洪成许金炜段力辉译&＃xff0c;更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.2　数据源

数据充当数据挖掘系统的输入&＃xff0c;因此数据存储库是非常重要的。在企业环境中&＃xff0c;数据库和日志文件是常见来源&＃xff1b;在网络数据挖掘中&＃xff0c;网页是数据的来源&＃xff1b;连续地从各种传感器中提取数据也是典型的数据源。

这里有一些免费的在线数据源十分有助于学习数据挖掘&＃xff1a;

频繁项集挖掘数据存储库&＃xff08;Frequent Itemset Mining Dataset Repository&＃xff09;&＃xff1a;一个带有数据集的存储库&＃xff0c;用于找到频繁项集的方法&＃xff08;http://fimi.ua.ac.be/data/&＃xff09;。

UCI机器学习存储库&＃xff08;UCI Machine Learning Repository&＃xff09;&＃xff1a;一个数据集的集合&＃xff0c;适用于分类任务&＃xff08;http://archive.ics.uci.edu/ml/&＃xff09;。

statlib的数据及其描述库&＃xff08;The Data and Story Library at statlib&＃xff09;&＃xff1a;DASL是一个在线库&＃xff0c;它拥有说明基本统计方法用途的数据文件和故事。我们希望提供来自多主题的数据&＃xff0c;这样统计学教师可以找到学生感兴趣的真实世界的例子。使用DASL强大的搜索引擎来查找感兴趣的故事和数据文件&＃xff08;http://lib.stat.cmu.edu/DASL/&＃xff09;。

词汇网&＃xff08;WordNet&＃xff09;&＃xff1a;一个英语词汇数据库&＃xff08;http://wordnet.princeton.edu&＃xff09;。