热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

学习数据仓库DAY1笔记

第一次接触数据仓库,我首先了解数据仓库的基本的一些概念:1.BI:businessintelligent,商业智能,用科学的分析方法,为领导提供科学决策信息的过程,主要是数据组将处理好的数据送来之后

第一次接触数据仓库,我首先了解数据仓库的基本的一些概念:

1.BI:business intelligent,商业智能,用科学的分析方法,为领导提供科学决策信息的过程,主要是数据组将处理好的数据送来之后,生成易于观看分析的折线图,饼图之类的各种图,并且处理数据组没有处理的比较复杂的计算。

2.DM:dataMart,数据集市,是数据仓库的子集,其中包含的主题少,历史时间短,数据量少,也可以称为部门级数据仓库。

3.ETL:数据抽取(extract),转换(transform),装载(load),其中也包含了数据清洗。它是构建数据仓库重要的一环。从数据源抽取数据,经过清洗过程(去掉坏数据,没用的数据,异常的数据),最终按预先定义好的数据仓库模型,将数据加载到数据仓库中去。

4.元数据:关于数据的数据。意思就是描述数据信息的数据,比如这里有一个学生的考试成绩的数据,那么元数据就是这个学生信息的数据。

5.ODS:operation data store,操作性数据存储。它是建立在数据准备区域和数据仓库之间的一个部件,支持一些同时关联到历史数据和实时数据分析的数据暂时存储的区域。

6.数据仓库:datawarehouse,数据仓库。它有四个要素:面向主题;集成;与时间相关;不可修改的数据集合;面向主题意思是所有数据都有,需要什么类型的拿什么。集成意思是不同类型的数据统一联系放在一起,集成数据。与时间相关的意思是反映历史数据的变化。不可修改的意思是放进去的历史数据一般很少修改删除,做的最多的应该是查询的操作。


数据仓库的建立

BI分析是基石,良好的数据仓库设计。

    数据的两种形式:操作数据和分析数据:企业中使用的数据可以分为两类:操作数据数据和分析数据。这两种数据都可以存储在DBMS中进行管理。他们的组织形式实际上源于并作用于两种系统:操作型系统和分析型系统。

    企业的生产环境,也由以数据库为中心的环境发展为以数据仓库为中心的环境。操作型系统根据其特点也称为联机事务处理(OLTP)其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一,存储操作数据,称为数据库。分析型系统也称联机分析处理(OLAP),一般把存储分析数据的数据库称为数据仓库。

     数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。

     由于数据库系统和数据仓库系统在硬件利用率上的差异,我们难于在同一台服务器上既进行优化操作型处理,又进行优化分析型处理,因此数据库系统和数据仓库系统在物理上应当由不同的服务器来运行。

推荐阅读
  • 合并列值-合并为一列问题需求:createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • PHP设置MySQL字符集的方法及使用mysqli_set_charset函数
    本文介绍了PHP设置MySQL字符集的方法,详细介绍了使用mysqli_set_charset函数来规定与数据库服务器进行数据传送时要使用的字符集。通过示例代码演示了如何设置默认客户端字符集。 ... [详细]
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 本文介绍了RPC框架Thrift的安装环境变量配置与第一个实例,讲解了RPC的概念以及如何解决跨语言、c++客户端、web服务端、远程调用等需求。Thrift开发方便上手快,性能和稳定性也不错,适合初学者学习和使用。 ... [详细]
  • 本文讨论了如何使用Web.Config进行自定义配置节的配置转换。作者提到,他将msbuild设置为详细模式,但转换却忽略了带有替换转换的自定义部分的存在。 ... [详细]
  • 本文讨论了如何使用GStreamer来删除H264格式视频文件中的中间部分,而不需要进行重编码。作者提出了使用gst_element_seek(...)函数来实现这个目标的思路,并提到遇到了一个解决不了的BUG。文章还列举了8个解决方案,希望能够得到更好的思路。 ... [详细]
  • 本文整理了常用的CSS属性及用法,包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等,方便开发者查阅和使用。 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • 关于如何快速定义自己的数据集,可以参考我的前一篇文章PyTorch中快速加载自定义数据(入门)_晨曦473的博客-CSDN博客刚开始学习P ... [详细]
  • Python 可视化 | Seaborn5 分钟入门 (六)——heatmap 热力图
    微信公众号:「Python读财」如有问题或建议,请公众号留言Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Seabo ... [详细]
author-avatar
小闯娃
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有