热门标签 | HotTags
当前位置:  开发笔记 > 运维 > 正文

建模杂谈系列7数据处理标准流程

说明数据处理尚未有统一的标准流程,这里只是提出一种实现可能。内容1批处理与单条处理无论是数据分析或者建模,首先是要累积一定的数据,
说明

数据处理尚未有统一的标准流程,这里只是提出一种实现可能。

内容

1 批处理与单条处理

无论是数据分析或者建模,首先是要累积一定的数据,不然没有统计性。所以自然而然地,分析模式下我们习惯了进行批处理。而在开始应用的时候通常是单条过来的,并且要经过一系列变换才能使用。

  • 1 以表数据为例,数据维度为2, 批处理的矩阵形状类似(3,3),而单条数据形状可以reshape成(1,3),这样数据的形状就统一了。
  • 2 单条处理有时候对于服务器性价不高,如果使用消息服务的话可以想办法按某个批次(100)来取数和处理。
  • 3 如果是建模,做变换的同时要考虑反变换,特别是未见值

2 标准处理流程

从原始数据(表数据)开始,处理流程如下:

2.1 数据规整

进行元数据分析,生成基础数据报告

对数据的基础信息进行描述,并对数据质量进行检查。

基础数据报告: (与发送者)确认接收到的数据,对一些基础性的质量、特征进行描述,目的是提醒(发送者与分析者)可能存在的基本面问题。

2.2 数据塑形

就表数据而言,只有宽表和长表。宽表又叫主表,长表又叫日志表。

根据规整形成的报告,进行相应的提取。这步主要进行表分析,规则分析和可视化,最终的结果形成数据分析报告, 数据分析表

数据分析报告:假设数据处于可用的状态,进行的对应提取,并形成诸多统计报告。目的是为了业务人员了解,确认,并可以使用简单的统计信息。也为了提醒分析者数据的基本状况,可用性。

数据分析表:宽表和长表。数据分析报告的源头,下一步分析/建模的基础。

2.3 数据衍生

数据衍生有两种方式和三个角度。
方式一,基于规则的变量衍生。
方式二,基于算法的变量衍生。

角度一,基于时间模式进行衍生,例如RFM。
角度二,基于高维模式进行衍生,例如多项式衍生。
角度三,基于网络模式进行衍生,例如PageRank。

这步的结果形成衍生变量分析报告,衍生方法

衍生变量分析报告:生成了多少衍生变量,其特性和相互之间的关系如何。
衍生方法 :每一个衍生变量是如何生成的。

2.4 模式识别

对应于数据衍生的方式,同样有三种方式进行模式识别。

  • 时间模式,高维模式和网络模式。

  • 模式是一种状态(State), 这种状态是具有一定惯性的,直到有外力迫使它改变为止。

  • 模式识别优先级高于模型量化。

  • 模式可分为Nominal, Ordinal。

  • 假定模式都是离散状态的。

  • 针对模式(模式组合、模式趋势)可以采取不同的策略

这步的结果是模式分析报告 , 模式策略建议, 模式判别模型
模式分析报告 :分别具有哪些模式,这些模式的特征在哪里。
模式策略建议:针对不同的模式,给出哪些策略建议。
模式判别模型:不同模式的判别方法。

2.5 模型

对应于数据衍生的方式,同样有三类模型。模型与模式的差别在于,一个是视锥细胞,一个是视杆细胞;一个看细节,一个看轮廓。
模型思路有两种,主观模型(贝叶斯派)和客观模型(频率学派)。
模型手段有两种,模拟方法和解析方法。

  • 时间模型,高维模型和网络模型。
  • 模型采用复合方法:先建立基准模型,再建立组合优化模型
  • 解释与非解释:先建立解释模式,后建立非解释模型。
  • 模型的自检:模型会自查假设前提,以及结果偏移。
  • 模型允许最细微的调整

这步的结果是模型分析报告, 模型稳定性报告, 模型性能报告,模型公式
模型分析报告:模型的全过程说明,以及产生的业务性结果。
模型稳定性报告:各个阶段模型的稳定性情况(输入,输出,时间和资源)
模型性能报告:在各个方面模型的统计表现(错杀,误放)
模型公式:模型的判别细节

3 标准处理细节

以下仅罗列一部分

  • 1 变量名分析
  • 2 变量名映射
  • 3 缺失分析
  • 4 离散化
  • 5 哑变量分析
  • 6 不均衡分析
  • 7 变化分析(趋势)
  • 8 状态分析(比例)
  • 9 宽表塑形
  • 10 长表塑形
  • 11 RFM衍生
  • 12 规则衍生(多项式 X +)
  • 13 趋势编码
  • 14 网络衍生
  • 15 时间分段(非均匀切分)
  • 16 时间模式识别
  • 17网络分割
  • 18 网络模式识别
  • 19 表分割
  • 20 表模式
  • 21 基准模型(解释模型)
  • 22 高阶模型(非解释模型)
  • 23 复合模型(组合优化模型)

推荐阅读
  • RabbitMQ 核心组件解析
    本文详细介绍了RabbitMQ的核心概念,包括其基本原理、应用场景及关键组件,如消息、生产者、消费者、信道、交换机、路由键和虚拟主机等。 ... [详细]
  • 对于初学者而言,搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]
  • 软件测试行业深度解析:迈向高薪的必经之路
    本文深入探讨了软件测试行业的发展现状及未来趋势,旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]
  • 解决宝塔面板Nginx反向代理缓存问题
    本文介绍如何在宝塔控制面板中通过编辑Nginx配置文件来解决反向代理中的缓存问题,确保每次请求都能从服务器获取最新的数据。 ... [详细]
  • 本文详细解析 Skynet 的启动流程,包括配置文件的读取、环境变量的设置、主要线程的启动(如 timer、socket、monitor 和 worker 线程),以及消息队列的实现机制。 ... [详细]
  • LoadRunner中的IP欺骗配置与实践
    为了确保服务器能够有效地区分不同的用户请求,避免多人使用同一IP地址造成的访问限制,可以通过配置IP欺骗来解决这一问题。本文将详细介绍IP欺骗的工作原理及其在LoadRunner中的具体配置步骤。 ... [详细]
  • 初探Hadoop:第一章概览
    本文深入探讨了《Hadoop》第一章的内容,重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]
  • 本文由公众号【数智物语】(ID: decision_engine)发布,关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程,介绍了41款实用工具,旨在帮助数据科学家和分析师提升工作效率。 ... [详细]
  • Windows环境下Oracle数据库迁移实践
    本文详细记录了一次在Windows操作系统下将Oracle数据库的控制文件、数据文件及在线日志文件迁移至外部存储的过程,旨在为后续的集群环境部署做好准备。 ... [详细]
  • 本文探讨了使用Python实现监控信息收集的方法,涵盖从基础的日志记录到复杂的系统运维解决方案,旨在帮助开发者和运维人员提升工作效率。 ... [详细]
  • Java虚拟机及其发展历程
    Java虚拟机(JVM)是每个Java开发者日常工作中不可或缺的一部分,但其背后的运作机制却往往显得神秘莫测。本文将探讨Java及其虚拟机的发展历程,帮助读者深入了解这一关键技术。 ... [详细]
  • 春季职场跃迁指南:如何高效利用金三银四跳槽季
    随着每年的‘金三银四’跳槽高峰期的到来,许多职场人士都开始考虑是否应该寻找新的职业机会。本文将探讨如何制定有效的职业规划、撰写吸引人的简历以及掌握面试技巧,助您在这关键时期成功实现职场跃迁。 ... [详细]
  • Docker安全策略与管理
    本文探讨了Docker的安全挑战、核心安全特性及其管理策略,旨在帮助读者深入理解Docker安全机制,并提供实用的安全管理建议。 ... [详细]
  • 使用TabActivity实现Android顶部选项卡功能
    本文介绍如何通过继承TabActivity来创建Android应用中的顶部选项卡。通过简单的步骤,您可以轻松地添加多个选项卡,并实现基本的界面切换功能。 ... [详细]
  • 解决PHP项目在服务器无法抓取远程网页内容的问题
    本文探讨了在使用PHP进行后端开发时,遇到的一个常见问题:即在本地环境中能够正常通过CURL获取远程网页内容,但在服务器上却无法实现。我们将分析可能的原因并提供解决方案。 ... [详细]
author-avatar
傻咾厷叫我洪儿
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有