热门标签 | HotTags
当前位置:  开发笔记 > 运维 > 正文

建模杂谈系列7数据处理标准流程

说明数据处理尚未有统一的标准流程,这里只是提出一种实现可能。内容1批处理与单条处理无论是数据分析或者建模,首先是要累积一定的数据,
说明

数据处理尚未有统一的标准流程,这里只是提出一种实现可能。

内容

1 批处理与单条处理

无论是数据分析或者建模,首先是要累积一定的数据,不然没有统计性。所以自然而然地,分析模式下我们习惯了进行批处理。而在开始应用的时候通常是单条过来的,并且要经过一系列变换才能使用。

  • 1 以表数据为例,数据维度为2, 批处理的矩阵形状类似(3,3),而单条数据形状可以reshape成(1,3),这样数据的形状就统一了。
  • 2 单条处理有时候对于服务器性价不高,如果使用消息服务的话可以想办法按某个批次(100)来取数和处理。
  • 3 如果是建模,做变换的同时要考虑反变换,特别是未见值

2 标准处理流程

从原始数据(表数据)开始,处理流程如下:

2.1 数据规整

进行元数据分析,生成基础数据报告

对数据的基础信息进行描述,并对数据质量进行检查。

基础数据报告: (与发送者)确认接收到的数据,对一些基础性的质量、特征进行描述,目的是提醒(发送者与分析者)可能存在的基本面问题。

2.2 数据塑形

就表数据而言,只有宽表和长表。宽表又叫主表,长表又叫日志表。

根据规整形成的报告,进行相应的提取。这步主要进行表分析,规则分析和可视化,最终的结果形成数据分析报告, 数据分析表

数据分析报告:假设数据处于可用的状态,进行的对应提取,并形成诸多统计报告。目的是为了业务人员了解,确认,并可以使用简单的统计信息。也为了提醒分析者数据的基本状况,可用性。

数据分析表:宽表和长表。数据分析报告的源头,下一步分析/建模的基础。

2.3 数据衍生

数据衍生有两种方式和三个角度。
方式一,基于规则的变量衍生。
方式二,基于算法的变量衍生。

角度一,基于时间模式进行衍生,例如RFM。
角度二,基于高维模式进行衍生,例如多项式衍生。
角度三,基于网络模式进行衍生,例如PageRank。

这步的结果形成衍生变量分析报告,衍生方法

衍生变量分析报告:生成了多少衍生变量,其特性和相互之间的关系如何。
衍生方法 :每一个衍生变量是如何生成的。

2.4 模式识别

对应于数据衍生的方式,同样有三种方式进行模式识别。

  • 时间模式,高维模式和网络模式。

  • 模式是一种状态(State), 这种状态是具有一定惯性的,直到有外力迫使它改变为止。

  • 模式识别优先级高于模型量化。

  • 模式可分为Nominal, Ordinal。

  • 假定模式都是离散状态的。

  • 针对模式(模式组合、模式趋势)可以采取不同的策略

这步的结果是模式分析报告 , 模式策略建议, 模式判别模型
模式分析报告 :分别具有哪些模式,这些模式的特征在哪里。
模式策略建议:针对不同的模式,给出哪些策略建议。
模式判别模型:不同模式的判别方法。

2.5 模型

对应于数据衍生的方式,同样有三类模型。模型与模式的差别在于,一个是视锥细胞,一个是视杆细胞;一个看细节,一个看轮廓。
模型思路有两种,主观模型(贝叶斯派)和客观模型(频率学派)。
模型手段有两种,模拟方法和解析方法。

  • 时间模型,高维模型和网络模型。
  • 模型采用复合方法:先建立基准模型,再建立组合优化模型
  • 解释与非解释:先建立解释模式,后建立非解释模型。
  • 模型的自检:模型会自查假设前提,以及结果偏移。
  • 模型允许最细微的调整

这步的结果是模型分析报告, 模型稳定性报告, 模型性能报告,模型公式
模型分析报告:模型的全过程说明,以及产生的业务性结果。
模型稳定性报告:各个阶段模型的稳定性情况(输入,输出,时间和资源)
模型性能报告:在各个方面模型的统计表现(错杀,误放)
模型公式:模型的判别细节

3 标准处理细节

以下仅罗列一部分

  • 1 变量名分析
  • 2 变量名映射
  • 3 缺失分析
  • 4 离散化
  • 5 哑变量分析
  • 6 不均衡分析
  • 7 变化分析(趋势)
  • 8 状态分析(比例)
  • 9 宽表塑形
  • 10 长表塑形
  • 11 RFM衍生
  • 12 规则衍生(多项式 X +)
  • 13 趋势编码
  • 14 网络衍生
  • 15 时间分段(非均匀切分)
  • 16 时间模式识别
  • 17网络分割
  • 18 网络模式识别
  • 19 表分割
  • 20 表模式
  • 21 基准模型(解释模型)
  • 22 高阶模型(非解释模型)
  • 23 复合模型(组合优化模型)

推荐阅读
  • 网络攻防实战:从HTTP到HTTPS的演变
    本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程,探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 本文详细探讨了Java中的24种设计模式及其应用,并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类,帮助开发者更好地理解和应用这些模式,提升代码质量和可维护性。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 本文深入探讨了Linux系统中网卡绑定(bonding)的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡,实现网络冗余、带宽聚合和负载均衡,在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]
  • MySQL缓存机制深度解析
    本文详细探讨了MySQL的缓存机制,包括主从复制、读写分离以及缓存同步策略等内容。通过理解这些概念和技术,读者可以更好地优化数据库性能。 ... [详细]
  • 高效解决应用崩溃问题!友盟新版错误分析工具全面升级
    友盟推出的最新版错误分析工具,专为移动开发者设计,提供强大的Crash收集与分析功能。该工具能够实时监控App运行状态,快速发现并修复错误,显著提升应用的稳定性和用户体验。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • libsodium 1.0.15 发布:引入重大不兼容更新
    最新发布的 libsodium 1.0.15 版本带来了若干不兼容的变更,其中包括默认密码散列算法的更改和其他重要调整。 ... [详细]
  • 微软Exchange服务器遭遇2022年版“千年虫”漏洞
    微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞,导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]
  • 本文介绍如何在现有网络中部署基于Linux系统的透明防火墙(网桥模式),以实现灵活的时间段控制、流量限制等功能。通过详细的步骤和配置说明,确保内部网络的安全性和稳定性。 ... [详细]
  • 本文深入探讨了 Redis 的两种持久化方式——RDB 快照和 AOF 日志。详细介绍了它们的工作原理、配置方法以及各自的优缺点,帮助读者根据具体需求选择合适的持久化方案。 ... [详细]
  • 通过Web界面管理Linux日志的解决方案
    本指南介绍了一种利用rsyslog、MariaDB和LogAnalyzer搭建集中式日志管理平台的方法,使用户可以通过Web界面查看和分析Linux系统的日志记录。此方案不仅适用于服务器环境,还提供了详细的步骤来确保系统的稳定性和安全性。 ... [详细]
  • 本文探讨了如何在日常工作中通过优化效率和深入研究核心技术,将技术和知识转化为实际收益。文章结合个人经验,分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法,帮助读者更好地实现技术变现。 ... [详细]
  • 科研单位信息系统中的DevOps实践与优化
    本文探讨了某科研单位通过引入云原生平台实现DevOps开发和运维一体化,显著提升了项目交付效率和产品质量。详细介绍了如何在实际项目中应用DevOps理念,解决了传统开发模式下的诸多痛点。 ... [详细]
author-avatar
傻咾厷叫我洪儿
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有