热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

关于大数据:他来了袋鼠云大数据基础平台EasyMR正式上线

EasyMR是袋鼠云自研的大数据根底平台,提供Hadoop、Hive、Spark、Trino、HBase、Kafka等组件,齐全兼容Apache开源生态;反对企业级平安管控,一键开启LDAP+Ke

7月28日,在袋鼠云2022产品发布会上,袋鼠云技术负责人思枢正式发表旗下产品「大数据根底平台EasyMR」公布。

EasyMR是袋鼠云自研的大数据根底平台,提供Hadoop、Hive、Spark、Trino、HBase、Kafka等组件,齐全兼容Apache开源生态;反对企业级平安管控,一键开启LDAP+Kerberos+Ranger认证权限体系;提供一站式运维治理平台,帮忙企业疾速构建大数据平台,升高运维老本。

联合袋鼠云在数字化畛域多年的寸积铢累,此次全新公布的大数据根底平台EasyMR紧跟开源生态的先进技术,不仅能够帮忙客户轻松应答海量数据的采集、存储、计算、剖析开掘和数据安全等利用场景,并且对于智能运维的部署、降级、扩缩容、监控等进行全方位反对,真正做到成为企业便捷、智能、高效的“数据底座”。

六大个性打造国产大数据根底平台

不同于十年前的离奇,当初大家曾经齐全习惯本人身处于“大数据时代”这件事件,所有人都可能深切地感触到大数据对于生存带来的各种扭转和便当,数据暴发的时代推动着每个集体、企业、行业,甚至是国家往前走。

以后国际形势风云变幻,中美双边关系的割裂,国家对于信创国产化的大力支持,给国内的大数据行业带来微小冲击的同时,也带来了全新时机。

数据根底平台作为所有的根底和底座,天然成为国产代替的重中之重。只有真正领有了自主可控的平台建设能力,能力逐渐建设基于本人的 IT 底层架构和规范,造成自有凋谢生态。

EasyMR就是这样一款自主研发、齐全可控的,致力于助力企业信息化智慧转型的“企业数据底座”。

上面通过形容EasyMR的次要个性,来具体说说,EasyMR是如何帮忙企业实现智能的?

● 界面化集群运维

Hadoop集群、大数据平台在日常运维中波及到的节点扩容缩容、组件进行启动、服务滚动重启、服务参数批改、版本升级与回滚等多种运维操作,通过逻辑化、流程化的产品界面展示,不便运维人员操作和监控,进步运维效率。

● 自动化部署

EasyMR通过规范化的步骤和参数约定制作出产品安装包,公布包中的Schema文件中配置了安装包中所有的服务,蕴含各服务的配置参数、健康检查参数,服务之间的依赖关系等。产品部署时可依据Schema中的相干配置实现一键全自动化部署。

● 仪表盘集群监控

通过集成开源的Promethus和Grafana,实现对集群、服务、节点的外围参数监控,并通过灵便形象的仪表盘进行数据展示。蕴含CPU占用率,RAM使用率、磁盘空间、IO读写速率等外围参数进行监控,实时把握集群、服务、节点的运行状态,升高运维故障率。同时,反对用户自建仪表盘及监控项,实现自定义监控项。

● 实时告警

反对实时监控集群中各组件服务的运行指标,如CPU、内存、磁盘、读写IO等,并反对短信、钉钉、邮件告警通道配置,集成多种第三方音讯插件。当集群服务出现异常时,可触发告警条件,零碎将及时告诉接管人。

● 强扩展性

通过自研的Easyagent Server形象出七大REST接口,装置、启动、进行、更新、配置批改、卸载、执行等与下层利用进行交互,可使agent类别和性能可轻松有限扩大。

● 平安稳固

数据安全、产品安全是大数据产品须要重点思考的问题。EasyMR在产品设计中过滤掉rm、drop等命令行,避免对数据库的误操作,通过更加平安的形式执行相干命令。同时提供服务的滚动重启、产品的断电重启,解决运维时服务不进行运行的场景并节俭运维工夫。

丰盛的大数据组件夯实数据基座

EasyMR反对Hadoop2.8.5、Hadoop3.2.1大数据集群搭建,反对丰盛的大数据组件,用户能够依据业务须要进行组件的抉择。

那么,EasyMR具体反对那些大数据组件呢?

● Yarn

版本反对:

· Yarn 反对Hadoop 2.8.5、3.2.1

次要性能为Hadoop的资源调度器,负责管理整个Hadoop集群的资源(CPU和内存)治理和调度。

● Hdfs

版本反对:

· Hdfs 反对Hadoop 2.8.5、3.2.1

Hdfs即Hadoop 分布式文件系统,是Hadoop的三大根底组件之一,次要是解决大数据场景下数据的增、删、改、查、文件切片等性能。

● Flink

版本反对:

· Flink 1.12

面向数据流解决和批量数据处理的可分布式的开源计算框架。

● Spark

版本反对:

· Spark 2.4.8

基于内存的新一代分布式开源大数据框架,反对离线,实时计算,也反对 SQL 语法以及机器学习的解决。

EasyMR对开源组件的SQL的DDL能力进行了加强,反对Add Column语法。

● Hive

版本反对:

· Hive 2.3.8

· Hive 3.1.2

基于Hadoop的一套离线数据处理系统,在HDFS之上提供了结构化的表数据的治理能力,提供类 SQL 的查问语法进行数据分析解决。

● Trino

版本反对:

· Trino 0.359

分布式SQL查问引擎, 用来专门进行高速、实时的数据分析。

EasyMR对Trino的Connector进行了加强,反对Connector的动静加载;对社区的Connector进行了扩大,反对星环Inceptor插件。

● Hbase

版本反对:

· Hbase 1.3.5

· Hbase 2.3.4

一款高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。

● Zookeeper

版本反对:

· Zookeeper 3.6.2

分布式应用程序协调服务,分布式应用程序可基于它实现同步服务,配置保护和命名服务等,为分布式集群提供一种牢靠、可扩大、分布式、可配置的协调机制来对立零碎的状态。

一起进行一次装置部署吧

其中,简洁、易上手也是EasyMR的一大劣势。EasyMR既心愿帮忙企业实现多源数据的高效集成,全量数据的高效剖析,同时也心愿可能升高平台的应用门槛,不会让上手难度成为影响企业数字化转型过程的一道壁垒。

所以,和咱们一起进行一次大数据产品的装置部署吧!

创立集群

EasyMR反对多集群的对立治理。

基于物理机/虚拟机进行主机集群创立。

「增加主机」,通过账号接入、命令行接入的形式进行主机节点的增加

上传组件安装包

抉择平台已有的组件安装包进行装置部署,或者通过本地上传、网络上传的形式上传本人的组件安装包。

一键疾速自动化部署

EasyMR反对单个产品包的手动部署和多个产品包的主动部署两种部署形式。

主动部署通过上传产品线定义组件部署流程,平台解析筛选相干组件,依据定义的主机角色实现主动资源主动编排,平台依据依赖关系实现组件的程序部署,大大节俭了运维一一部署、资源配置的工夫。

产品装置过程中,咱们能够实时看到服务部署进度、查看部署日志,服务部署状况高深莫测。

7*24小时实时监控告警

EasyMR通过集成开源的promethus和grafana,实现对集群、服务、节点的外围参数监控,并通过灵便形象的仪表盘进行数据展示。蕴含CPU占用率,RAM使用率、磁盘空间、I/O读写速率等外围参数进行监控,实时把握集群、服务、节点的运行状态,升高运维故障率。同时,反对用户自建仪表盘及监控项,实现自定义监控项。

设置告警规定

平台提供 “短信通道、邮件通道、钉钉通道、企业微信通道、自定义通道” 5种通道配置,用户依据须要抉择适合通道并填写通道配置信息、音讯模板、地址等实现通道配置。

写在最初

没错,EasyMR就是这样一款好用、易用、高效的大数据根底工具,笼罩企业服务监控运维、组件的降级与回滚、离线数据分析、流式数据处理等多种利用场景。

将来EasyMR将保持自主翻新,一直进化,将积攒的大数据实践经验复制到更多的企业。

袋鼠云开源框架钉钉技术交换qun(30537511),欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息,开源我的项目库地址:https://github.com/DTStack/Taier


推荐阅读
  • 本文介绍了贝叶斯垃圾邮件分类的机器学习代码,代码来源于https://www.cnblogs.com/huangyc/p/10327209.html,并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • EzPP 0.2发布,新增YAML布局渲染功能
    EzPP发布了0.2.1版本,新增了YAML布局渲染功能,可以将YAML文件渲染为图片,并且可以复用YAML作为模版,通过传递不同参数生成不同的图片。这个功能可以用于绘制Logo、封面或其他图片,让用户不需要安装或卸载Photoshop。文章还提供了一个入门例子,介绍了使用ezpp的基本渲染方法,以及如何使用canvas、text类元素、自定义字体等。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 2021最新总结网易/腾讯/CVTE/字节面经分享(附答案解析)
    本文分享作者在2021年面试网易、腾讯、CVTE和字节等大型互联网企业的经历和问题,包括稳定性设计、数据库优化、分布式锁的设计等内容。同时提供了大厂最新面试真题笔记,并附带答案解析。 ... [详细]
  • Windows系统 查询已开通的端口号和对外开放端口号
    查询端口号开放情况:查看该端口被那个PID所占用;方法一:有针对性的查看端口,使用命令:netstat–ano|findstr“”netstat-a对外开放端口号参考ht ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • Python开源库和第三方包的常用框架及库
    本文介绍了Python开源库和第三方包中常用的框架和库,包括Django、CubicWeb等。同时还整理了GitHub中最受欢迎的15个Python开源框架,涵盖了事件I/O、OLAP、Web开发、高性能网络通信、测试和爬虫等领域。 ... [详细]
  • Java和JavaScript是什么关系?java跟javaScript都是编程语言,只是java跟javaScript没有什么太大关系,一个是脚本语言(前端语言),一个是面向对象 ... [详细]
  • EPPlus绘制刻度线的方法及示例代码
    本文介绍了使用EPPlus绘制刻度线的方法,并提供了示例代码。通过ExcelPackage类和List对象,可以实现在Excel中绘制刻度线的功能。具体的方法和示例代码在文章中进行了详细的介绍和演示。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 数据分析的组成部分及其商业价值
    本文介绍了数据分析的组成部分,包括数据采集、数据挖掘和数据可视化,并强调了数据挖掘的商业价值和数据可视化的重要性。数据分析是通过挖掘数据中的规律来指导业务的过程,而数据可视化则可以直观地呈现数据分析的结果。 ... [详细]
  • PHP组合工具以及开发所需的工具
    本文介绍了PHP开发中常用的组合工具和开发所需的工具。对于数据分析软件,包括Excel、hihidata、SPSS、SAS、MARLAB、Eview以及各种BI与报表工具等。同时还介绍了PHP开发所需的PHP MySQL Apache集成环境,包括推荐的AppServ等版本。 ... [详细]
  • ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES
    一、认识ElasticSearch是一个基于Lucene的开源搜索引擎,通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索,分析系统&# ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
author-avatar
印度神油两性a
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有