热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据仓库上云那些事儿

专注微软平台的商业智能解决方案骂别人不革命,便是革命者,则自己不做事,而骂别人的事做得不好,自然便是更做事者。若与此辈理论,可以被牵连到白费唇舌,一事无成,也就是白活一世,于己于

专注微软平台的商业智能解决方案
骂别人不革命,便是革命者,则自己不做事,而骂别人的事做得不好,自然便是更做事者。
若与此辈理论,可以被牵连到白费唇舌,一事无成,也就是白活一世,于己于人,都无益处。
我现在得了妙法,是谣言不辩,诬蔑不洗,只管自己做事。——鲁迅1934年6月21日信



数据仓库上云已经不是什么新鲜概念,这里简单聊一聊在这个过程中需要考虑的问题。

首先,某些话题不是一两句能说清楚,所以,这里我们不聊以下话题:



技术平台的对比。这里我们不做任何对比分析,如不特殊说明均指Azure以及微软相应的产品。
某个产品的好坏。
法务,合规。不同公司有不同的规定。
国家大事。这个我们知道就好,不在这里聊。但是我想强调一点是,即使只搞技术,国家民族大义也是头等大事,不然你会吃亏。

 

 

To be or not to be, this is a question.

首先上云肯定是有优势的,而且是不只技术层面的优势。

也许有人说上云反而更贵,这也仅仅是计算方法不同导致的而已,毕竟不会所有人都会关心服务器的采购,供应商的沟通,以及续保等问题。

对于什么样的数据上云,不同的公司有不同的规定。对于保守的公司这里不做讨论,不过目前大环境可以看到,这个趋势被越来越多的公司所认可,也都有了相应的项目上云,但还是会对能掌握命门的数据有所保留,而只是把相对能公开的数据上云,比如跟销售市场相关的。

 

国内 or 国外

首先要知道,国内的Azure很多功能还是缺失的,相应的团队正在加大力度引入更多海外版的功能。所以,在做设计,以及参考微软的文档前,要先确认相应的功能是否已经上线,比如虚拟机自动关闭的功能,在当前这个时间节点2020年9月还没有在国内上线。

另外不同的项目也需要参考相应的规定。比如某些数据是不允许脱离所在国家的。

 

 

PAAS or IAAS

这两个方式各有优劣,需要根据自己的情况选择。

PAAS的话什么都是现成的,同时也省去了你做底层维护的困扰,但是如果你需要底层数据的支持进行故障分析或者调优的工作,会受到很多限制,比如服务没有响应,是不是CPU超负荷导致的。

IAAS需要你从虚拟机开始搭建,跟传统不上云的方式没什么区别,好多底层,打补丁之类的维护你需要自己考虑怎么解决(还好微软有现成方案)。但是获取底层数据排查问题的时候会有更多的自由度。

如果你在范畴用IAAS的话类似打补丁的运维工作怎么处理,那么也大可不用担心,Azure平台有现成的功能,配置下就可以,平时多监控着就行了。

另外如果你的数据仓库是基于大数据平台构建的话,那么推荐考虑PAAS平台,毕竟一个集群的搭建和管理所花的成本还是很大的。

 

这也是需要考虑的一个问题,因为你上云了,不见得其它系统也会跟着上云。所以当你需要获取这些系统的数据的时候需要考虑些特殊的方式,而这些方式可能会影响到你对于大量数据的传输。

首先数据库直连就不要考虑了,任何一家公司的网关也不会冒这个风险给你开绿灯。

那么就需要看看所在公司层面是否提供类似的平台,比如文件传输平台,或者是专线。

如果有现成的文件传输平台,并且能够保证传输的安全,那么就可以考虑数据从源系统导出的方式。

如果有了现有专线,那么可能会方便一些。但是否能保证两边数据库直连,也要看各家公司网管的脾气。如果可行的话,那么就需要在公司层面统一规化内网IP段的使用,确保在进行互连的时候不会冲突。

当然,如果你是微软所说的理想情况,所有其它应用都在云端,那么恭喜你。

 

从技术层面(是的,仅仅是技术层面),数据安全需要从两个方面去考虑。首先是数据的存储安全。这个微软的平台基本都支持。其次是数据的传输安全,这个需要根据你用到的不同产品去具体分析,基本上要确保,即使数据仓库的内部通信,也要保证数据的传输不是明文,而是加密的,所以什么HTTPS,SSL之类的能上都上。

 

你的架构在云上,那么他就有可能被黑客骚扰吗?这个是很有可能的,基本上如果你设置日志,那么就可以看到时不时有东西在嗅探你公开出来的端口,尤其是数据库之类的端口。

要解决这个问题,首先,网络层面的设计可以参考各种最佳时间,比如对虚拟网络里子网的划分,管理层,应用层,数据层都分开。数据层不允许任何公网ip的请求,应用层通过内网ip对数据层进行访问。只有管理层才有对应用层以及数据层的远程权限。

当然方法不只这一种,总体的思路基本都是,尽量缩小在公网暴露出来的端口,减少被扫描到的可能性。

 

这个是上不上云你都需要考虑的。

首先如果你不上云,那么你可能需要去配置单独的作业去做备份计划。

如果上云的话,你也可以这么做,但是你还有更多的选择,比如就借助Azure平台的功能,这也是我推荐的。

另外有些对于存储备份的功能,国内部分功能还没上线,比如对于Azure Files的,这个在设计的时候需要留意。不过已经上线的功能已经能满足你的大部分应用。

所以,如果在自己定义备份计划脚本和用平台的备份功能选择的话,我建议用平台级功能。

 

这个要看你系统承诺的RTO以及RPO。

跟其它平台以及虚拟化平台一样,Azure平台也提供了不错的功能,你可以通过配置指定你的灾难恢复方式。比如从上海到北京。

对于RTO,虽然很少有平台能承诺一个时间,但主流的云厂商都会把20分钟看成一个重要指标。如果你去测试的话基本上你的资源在这个时间范围内也都能恢复过来。

RPO要具体去分析。对于应用层的服务器,比如报表服务,基本不会有什么压力。主要是数据层的数据仓库。虽说平台级都是实时的数据传输,但是也不能保证被恢复的数据库就是100%成功的,即使这个失败的机率很小,那也是应该考虑的。所以对于数据仓库服务器,建议灾难恢复以及数据库备份都开着。

 

对于解决方案的判断,需要有自己的判断,不能盲目迷信。比如对平台市场及销售人员,也许你只需要一个大众,在未来一段时间换奥迪都会感觉困难,但是偏偏就会有人跟你说这个世界的车只有宾利或者保时捷。

价格方面也是很多项目关心的,还好国内平台官网上已经提供了比较详细的报价,只要你对相应的知识点都有了解,那么来理解这些价格信息是不会有什么难度的。

账单,这个需要尽量多的关注,避免有些你已经不用的功能还在收费,因为有些资源不是你删除了主资源之后也会跟着删除的。

技术上的支持,平台方的支持也是很不错的,如果你是订阅用户都有免费和收费级别的服务。对于指定问题,跟同内部的技术团队沟通一样,一定要让问题尽量明确,这样才会得到平台方最高效的回复。

---------------------------------------------------------------

aspnetx的BI笔记系列索引:

使用SQL Server Analysis Services数据挖掘的关联规则实现商品推荐功能

一起玩转SQL Server 2012 下的分析服务

使用SQL Server分析服务定位目标用户

 

 

---------------------------------------------------------------

来自博客园的aspnetx宋卫东

 

 

文章来源于https://www.cnblogs.com/aspnetx/p/13661874.html


   



推荐阅读
  • 服务器部署中的安全策略实践与优化
    服务器部署中的安全策略实践与优化 ... [详细]
  • 为了确保iOS应用能够安全地访问网站数据,本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程,可以确保应用始终使用HTTPS协议,从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法,帮助读者快速上手并成功部署SSL证书。 ... [详细]
  • 在ElasticStack日志监控系统中,Logstash编码插件自5.0版本起进行了重大改进。插件被独立拆分为gem包,每个插件可以单独进行更新和维护,无需依赖Logstash的整体升级。这不仅提高了系统的灵活性和可维护性,还简化了插件的管理和部署过程。本文将详细介绍这些编码插件的功能、配置方法,并通过实际生产环境中的应用案例,展示其在日志处理和监控中的高效性和可靠性。 ... [详细]
  • 本文详细介绍了在Linux系统上编译安装MySQL 5.5源码的步骤。首先,通过Yum安装必要的依赖软件包,如GCC、GCC-C++等,确保编译环境的完备。接着,下载并解压MySQL 5.5的源码包,配置编译选项,进行编译和安装。最后,完成安装后,进行基本的配置和启动测试,确保MySQL服务正常运行。 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 基于Net Core 3.0与Web API的前后端分离开发:Vue.js在前端的应用
    本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发,并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作,开发环境为Windows 10和Visual Studio 2019,MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装,为开发者提供了一套完整的开发指南。 ... [详细]
  • 本文深入解析了通过JDBC实现ActiveMQ消息持久化的机制。JDBC能够将消息可靠地存储在多种关系型数据库中,如MySQL、SQL Server、Oracle和DB2等。采用JDBC持久化方式时,数据库会自动生成三个关键表:`activemq_msgs`、`activemq_lock`和`activemq_ACKS`,分别用于存储消息数据、锁定信息和确认状态。这种机制不仅提高了消息的可靠性,还增强了系统的可扩展性和容错能力。 ... [详细]
  • 本文介绍了如何利用Shell脚本高效地部署MHA(MySQL High Availability)高可用集群。通过详细的脚本编写和配置示例,展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程,还提高了系统的稳定性和可用性。 ... [详细]
  • 在配置Nginx的SSL证书后,虽然HTTPS访问能够正常工作,但HTTP请求却会遇到400错误。本文详细解析了这一问题,并提供了Nginx配置的具体示例。此外,还深入探讨了DNS服务器证书、SSL证书的申请与安装流程,以及域名注册、查询方法和CDN加速技术的应用,帮助读者全面了解相关技术细节。 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • Web开发框架概览:Java与JavaScript技术及框架综述
    Web开发涉及服务器端和客户端的协同工作。在服务器端,Java是一种优秀的编程语言,适用于构建各种功能模块,如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示,同时借助JavaScript增强交互性和动态效果。此外,现代Web开发还广泛使用各种框架和库,如Spring Boot、React和Vue.js,以提高开发效率和应用性能。 ... [详细]
  • 基于Linux系统的Kickstart自动化服务器部署方案
    本文针对企业需求,提出了一种基于Linux系统的Kickstart自动化服务器部署方案。该方案旨在通过无盘批量安装操作系统,提高企业IT基础设施的部署效率。Kickstart是一种利用Anaconda工具实现服务器自动化安装的技术,能够显著简化和加速操作系统的安装过程。通过详细的实施规划,本文介绍了Kickstart的工作原理及其在实际部署中的应用,为企业提供了高效的自动化部署解决方案。 ... [详细]
  • 在Ubuntu系统中安装Android SDK的详细步骤及解决“Failed to fetch URL https://dlssl.google.com/”错误的方法
    在Ubuntu 11.10 x64系统中安装Android SDK的详细步骤,包括配置环境变量和解决“Failed to fetch URL https://dlssl.google.com/”错误的方法。本文详细介绍了如何在该系统上顺利安装并配置Android SDK,确保开发环境的稳定性和高效性。此外,还提供了解决网络连接问题的实用技巧,帮助用户克服常见的安装障碍。 ... [详细]
  • Amoeba 通过优化 MySQL 的读写分离功能显著提升了数据库性能。作为一款基于 MySQL 协议的代理工具,Amoeba 能够高效地处理应用程序的请求,并根据预设的规则将 SQL 请求智能地分配到不同的数据库实例,从而实现负载均衡和高可用性。该方案不仅提高了系统的并发处理能力,还有效减少了主数据库的负担,确保了数据的一致性和可靠性。 ... [详细]
  • 本文详细解析了 Android 系统启动过程中的核心文件 `init.c`,探讨了其在系统初始化阶段的关键作用。通过对 `init.c` 的源代码进行深入分析,揭示了其如何管理进程、解析配置文件以及执行系统启动脚本。此外,文章还介绍了 `init` 进程的生命周期及其与内核的交互方式,为开发者提供了深入了解 Android 启动机制的宝贵资料。 ... [详细]
author-avatar
安茂友恢复_172
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有