知识发现过程如图1.4所示,由以下步骤的迭代序列组成:
(1)数据清理(消除噪声和删除不一致数据)。
(2)数据集成(多种数据源可以组合在一起)。1
(3)数据选择(从数据库中提取与分析任务相关的数据)。
(4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)。2
(5)数据挖掘(基本步骤,使用智能方法提取数据模式)。
(6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)。
(7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。
步骤(1)~(4)是数据预处理的不同形式,为挖掘准备数据。数据挖掘步骤可能与用户或知识库交互。有趣的模式提供给用户,或作为新的知识存放在知识库中。
“数据挖掘是从大量数据中挖掘有趣模式和知识的过程。”
“数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。”
注释:
- 信息产业界的一个流行趋势是将数据清理和数据集成作为预处理步骤执行,结果数据存放在数据仓库中。
- 有时,数据变换和数据统一在数据选择过程之前进行,特别是在数据仓库化的情况下。可能还需要进行数据归约,以得到原始数据的较小表示,而不牺牲完整性。