数据仓库是由数据仓库之父比尔·恩门(Bill Inmon)提出,数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合。
主要用于组织积累的历史数据,并使用分析方法(OLAP、数据分析)进行分析整理,进而辅助决策,为管理者、企业系统提供数据支持,构建商业智能。
数据仓库是为数据分析服务的,而数据分析任务是有明确的主题任务的。比如,要分析用户行为特征,那就需要将业务数据库抽取过来的原始数据表进行聚合,然后集合成一张用户行为表;要分析用户的购买习惯,就需要将原始数据聚合成一张用户购买商品明细表。聚合后的表,便于之后相关主题的分析任务进行运算。
所以说,数据仓库是面向主题的,是指为主题明确的数据分析提供的数据聚合服务。
数据仓库中的数据是来源于不同数据源的,因为企业的业务根据规模的不同,可能存在一个或多个业务系统。不同的数据源,对数据采用的规范可能各不相同。
如图所示,对性别的编码上,四个系统可能会采用不同的方式来表示男、女;在属性上,也可能有不同的差异,如使用不同的计量单位;甚至因为各个系统的分工不同,导致对同一张表的字段