数据处理尚未有统一的标准流程,这里只是提出一种实现可能。
内容无论是数据分析或者建模,首先是要累积一定的数据,不然没有统计性。所以自然而然地,分析模式下我们习惯了进行批处理。而在开始应用的时候通常是单条过来的,并且要经过一系列变换才能使用。
从原始数据(表数据)开始,处理流程如下:
进行元数据分析,生成基础数据报告。
对数据的基础信息进行描述,并对数据质量进行检查。
基础数据报告: (与发送者)确认接收到的数据,对一些基础性的质量、特征进行描述,目的是提醒(发送者与分析者)可能存在的基本面问题。
就表数据而言,只有宽表和长表。宽表又叫主表,长表又叫日志表。
根据规整形成的报告,进行相应的提取。这步主要进行表分析,规则分析和可视化,最终的结果形成数据分析报告, 数据分析表。
数据分析报告:假设数据处于可用的状态,进行的对应提取,并形成诸多统计报告。目的是为了业务人员了解,确认,并可以使用简单的统计信息。也为了提醒分析者数据的基本状况,可用性。
数据分析表:宽表和长表。数据分析报告的源头,下一步分析/建模的基础。
数据衍生有两种方式和三个角度。
方式一,基于规则的变量衍生。
方式二,基于算法的变量衍生。
角度一,基于时间模式进行衍生,例如RFM。
角度二,基于高维模式进行衍生,例如多项式衍生。
角度三,基于网络模式进行衍生,例如PageRank。
这步的结果形成衍生变量分析报告,衍生方法 。
衍生变量分析报告:生成了多少衍生变量,其特性和相互之间的关系如何。
衍生方法 :每一个衍生变量是如何生成的。
对应于数据衍生的方式,同样有三种方式进行模式识别。
时间模式,高维模式和网络模式。
模式是一种状态(State), 这种状态是具有一定惯性的,直到有外力迫使它改变为止。
模式识别优先级高于模型量化。
模式可分为Nominal, Ordinal。
假定模式都是离散状态的。
针对模式(模式组合、模式趋势)可以采取不同的策略
这步的结果是模式分析报告 , 模式策略建议, 模式判别模型
模式分析报告 :分别具有哪些模式,这些模式的特征在哪里。
模式策略建议:针对不同的模式,给出哪些策略建议。
模式判别模型:不同模式的判别方法。
对应于数据衍生的方式,同样有三类模型。模型与模式的差别在于,一个是视锥细胞,一个是视杆细胞;一个看细节,一个看轮廓。
模型思路有两种,主观模型(贝叶斯派)和客观模型(频率学派)。
模型手段有两种,模拟方法和解析方法。
这步的结果是模型分析报告, 模型稳定性报告, 模型性能报告,模型公式
模型分析报告:模型的全过程说明,以及产生的业务性结果。
模型稳定性报告:各个阶段模型的稳定性情况(输入,输出,时间和资源)
模型性能报告:在各个方面模型的统计表现(错杀,误放)
模型公式:模型的判别细节
以下仅罗列一部分