热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

HDP2.6中APACHESPARK&APACHEZEPPELIN的新功能

任何数据值和它内部的派生值都是成正比的。因为DataLakeArchitecture

任何数据值和它内部的派生值都是成正比的。因为Data Lake Architecture,所有的企业数据提供在一个位置。从数据湖深入驱动的关键是Apache Spark & Apache Zeppelin。两者都是预测分析和机器学习的关键工具。HDP最进发布的版本为 Spark & Zeppelin 提供了几个关键的功能和改进,有助于预测分析和机器学习的进步。

APACHE SPARK 2.1

现在Apache Spark 2.1.1使用的是HDP 2.6 的GA. 。这次发布的Spark是在Spark代码上发布的最稳定&功能最丰富的版本。Spark2.1版本的主要重点是Structured Streaming, 机器学习, 和SparkR。Spark流借助Apache Kafka 0.10.0 版本利用 Kafka 连接SSL。Structured Streaming越来越成熟, 但仍然很差, 所以我们不建议在关键生产环境中使用structured streaming除非技术变得更成熟。你很快可以在Hortonworks Data Cloud上尝试Spark 2.1。

SPARKR & PYSPARK

大部分数据科学家在SparkR & PySpark 中分别使用 R & Python 语言,他们可以持续使用他们所熟悉的R & Python 语言。然而他们需要Spark API 利用Spark的机器学习达到充分利用分布式计算。SparkR & PySpark正在迅速演变,SparkR 现在支持大量的机器学习算法,例如 LDA, ALS, RF, GMM GBT等。SparkR的另一个关键改变是部署交互式包的能力。这有助于数据科学家在他们自己的环境部署他们最爱的包,不用和其他用户用同一个环境。

PySpark现在还支持在虚拟环境中部署,这将使PySpark用户可以独立的在单独的部署环境中部署libraries(函数库)。

SPARKSQL的行/列级访问权限

也许这次Spark发布的最重要的功能就是Spark LLAP & Ranger的集成。这种集成提供了fine-grained access control to SparkSQL. 现在安全管理员可以指定行/列级访问权限以及对SparkSQL的屏蔽。现在 SparkSQL 和Apache Hive 用户有一样的细粒度访问权限。

REAT Spark访问

因为HDP2.6版本中, 我们为了 REST-based access to Spark已经通过Livy提交。Spark的REST-based 访问对于那些想不打开集群就可以远程访问Spark用户的大型企业很有用。REST 访问还可以提交需求处理身份验证。

改善大数据作业的追踪

Spark作业经常和其他HDP组件交互工作, 例如, 他们从HDFS上读取然后在YARN上运行。追踪系统调用这些组件很困难并且也很难纠正这些行为。因为这一版本中, 我们提供了通过组件关联这些行为,可以将复杂的Spark作业调试的更简单。

Apache Zeppelin 0.7

这次HDP的发布还提供了Apache Zeppelin 0.7.1版本。关键的改善是 Zeppelin 0.7 支持Apache Spark 2.1。另一个重大improvement is in Zeppelin’s integration with Livy。因为这个版本,Zeppelin的Livy interpreter 可以自动发现过期的会话,不需要重启Livy过期会话。再一个关键改善是支持在JDBC interpreter中多行SQL statement。

总结

HDP 2.6是Apache Spark & Zeppelin 的主要版本引入了大量重要的功能。请试用我们的最新版本, 我们恨期待您的反馈以便我们持续改进。

译文原文:https://hortonworks.com/blog/new_apache-spark-zeppelin-hdp-2-6_enterprise_data/

欢迎关注微信公众号,第一时间,阅读更多有关云计算、大数据文章。

原创文章,转载请注明: 转载自Itweet的博客
本博客的文章集合:
http://www.itweet.cn/blog/archive/



推荐阅读
  • SpringBoot uri统一权限管理的实现方法及步骤详解
    本文详细介绍了SpringBoot中实现uri统一权限管理的方法,包括表结构定义、自动统计URI并自动删除脏数据、程序启动加载等步骤。通过该方法可以提高系统的安全性,实现对系统任意接口的权限拦截验证。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 服务网关与流量网关
    一、为什么需要服务网关1、什么是服务网关传统的单体架构中只需要开放一个服务给客户端调用,但是微服务架构中是将一个系统拆分成多个微服务,如果没有网关& ... [详细]
  • zuul 路由不生效_Zuul网关到底有何牛逼之处?竟然这么多人在用~
    作者:kosamino来源:cnblogs.comjing99p11696192.html哈喽,各位新来的小伙伴们,大家好& ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • kafka教程基本概念
    kafka教程基本概念 ... [详细]
  • Yarn已过时!Kubeflow实现机器学习调度平台才是未来
    来源:AI前线本文约6700字,建议阅读10分钟。本文分析了建设分布式训练平台的过程中的痛点所在,为你介绍Kubeflow与其核心组件及其 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • 本文介绍了在Linux下安装和配置Kafka的方法,包括安装JDK、下载和解压Kafka、配置Kafka的参数,以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例,帮助读者快速完成Kafka的安装和配置。 ... [详细]
  • 本文介绍了Android中的assets目录和raw目录的共同点和区别,包括获取资源的方法、目录结构的限制以及列出资源的能力。同时,还解释了raw目录中资源文件生成的ID,并说明了这些目录的使用方法。 ... [详细]
  • GSIOpenSSH PAM_USER 安全绕过漏洞
    漏洞名称:GSI-OpenSSHPAM_USER安全绕过漏洞CNNVD编号:CNNVD-201304-097发布时间:2013-04-09 ... [详细]
  • ejava,刘聪dejava
    本文目录一览:1、什么是Java?2、java ... [详细]
  • Spark Streaming和Kafka整合之路(最新版本)
    2019独角兽企业重金招聘Python工程师标准最近完成了SparkStreaming和Kafka的整合工作,耗时虽然不长,但是当中还是遇到了不少 ... [详细]
  • Flink(三)IDEA开发Flink环境搭建与测试
    一.IDEA开发环境1.pom文件设置1.8 ... [详细]
author-avatar
看电影天堂4
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有