热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

大数据技术该怎样分析

这期内容当中小编将会给大家带来有关大数据技术该怎样分析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

这期内容当中小编将会给大家带来有关大数据技术该怎样分析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

数据采集传输主要技术

分为两类,一类是离线批处理、另一类是实时数据采集和传输

离线批处理最有名的是Sqoop、实时数据采集和传输最为常用的是Flume和Kafka

  1. Sqoop:一款开源的离线数据传输工具,主要用于Hadoop(Hive)与传统数据库(Mysql、Oracle)之间数据传递。

  2. Flume:实时日志采集平台,一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。

  3. Kafka:通常来说Flume采集数据的速度与下游处理数据通常不同步,因此实时平台架构都会用一个消息中间件进行缓冲,这方面使用最广泛的无疑是Kafka,Kafka是一个分布式消息系统,以其可以水平扩展和高吞吐率而被广泛使用,是基于消息发布-订阅系统。和kafka类似的消息中间件产品还包括RabbitMQ、ActiveMQ、ZeroMQ等

数据处理主要技术

  1. MapReduce:运行与大规模集群上的复杂并行计算过程高度抽象为两个函数:map和reduce。

  2. Hive:是一个建立在Hadoop体系结构上的一层SQL抽象

  3. Spark:具有可伸缩、基于内存计算等特点,可以读写Hadoop上任何格式的数据。

  4. Strom:实时数据处理框架,拥有低延迟、分布式、可扩展、高容错等特征,可以保证消息不丢(diu)失。

  5. Flink:是一个同时面向分布式实时流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时提供支持流处理和批处理两种类型应用的功能。

  6. Beam:在Flink基础上更进一步,不但希望统一批处理和流处理,而且希望统一大数据处理范式和标准。

数据储存主要技术

  1. HDFS:分布式文件系统。

  2. Hbase:构建在HDFS之上的分布式、面向列族的存储系统,在需要实时读写并随机访问超大规模数据集等场景下,Hbase目前是市场上主流的技术选择。

数据应用技术

  1. Drill:实时大数据分布式查询引擎,Drill兼容ANSI SQL语法作为接口,支撑对本地文件、HDFS、Hive、HBase、MongeDB作为存储数据查询,文件格式支持Parquet、CSV、TSV以及JSON这种无模式数据,所有这些数据都可以像使用传统数据库的表查询一样进行快速实时查询。

  2. R:数据分析语言

  3. TensorFlow:基于数据流图的处理框架,Tensorflow节点表示数据运算,边表示运算节点之间的数据交互。

上述就是小编为大家分享的大数据技术该怎样分析了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注编程笔记行业资讯频道。


推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • Jmeter对RabbitMQ压力测试
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Jmeter对RabbitMQ压力测试相关的知识,希望对你有一定的参考价值。Jm ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • 【转】腾讯分析系统架构解析
    TA(TencentAnalytics,腾讯分析)是一款面向第三方站长的免费网站分析系统,在数据稳定性、及时性方面广受站长好评,其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]
  • 伸缩性|发生_分布式文件系统设计,该从哪些方面考虑?
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了分布式文件系统设计,该从哪些方面考虑?相关的知识,希望对你有一定的参考价值。点击上方关注“ ... [详细]
  •        在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下:       1、CentOS6.7下安装JDK,地址:http:b ... [详细]
  • bat大牛带你深度剖析android 十大开源框架_请收好!5大领域,21个必知的机器学习开源工具...
    全文共3744字,预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]
  • Hadoop之Yarn
    目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • 本文介绍了在sqoop1.4.*版本中,如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件,并重新编译,可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码,重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
author-avatar
安仔小窝forever
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有