热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

github数据分析项目(bigemap好用吗)

frompc˃大数据处理流程˂imgsrchttps:p26.toutiaoimg.comoriginpgc-image5bad25974bd34106ac179ee


《GitHub精选》是一个分享Github优秀项目的栏目,包括技术、学习、实用性和各种有趣的内容。 这次推荐的是大数据的内容。 想学习大数据的学生的福利来了。




大数据处理流程


学习框架日志收集框架:框架、日志统计、文件投注


分布式文件存储系统Hadoop HDFS


数据库: Mongodb、h基本型


分布式计算框架:


批处理框架: Hadoop MapReduce流处理框架: Storm混合处理框架: Spark、Flink查询分析框架: Hive、Spark SQL、Flink SQL、Pig、Pig


集群资源管理器: Hadoop YARN


分布式协调服务: Zookeeper


数据迁移工具: Sqoop


任务调度框架: Azkaban、Oozie


群集部署和监视: Ambari、云era管理器


数据收集:大数据处理的第一步是数据的收集。 由于目前大中型项目通常采用微服务架构进行分布式配置,因此数据采集需要在多台服务器上进行,采集过程不会影响常规业务的开展。 基于这些需求,诞生了Flume、Logstash、Kibana等各种日志收集工具。 这些工具可以通过简单的配置进行复杂的数据收集和数据聚合。


数据存储收集数据后,下一个问题是该如何保存数据。 众所周知,传统的关系数据库(如MySQL和Oracle )具有快速存储结构化数据和支持随机访问的优点。 但是,大数据的数据结构通常是日志数据等半结构化,甚至视频、音频数据等非结构化,为了解决大量半结构化数据和非结构化数据的存储,Hadoop HDFS、KFS、GFS等分布式文件


分布式文件系统完美地解决了大量的数据存储问题,但优秀的数据存储系统必须同时考虑数据存储和访问问题。 例如,希望随机访问数据的人擅长传统的关系数据库,但不擅长分布式文件系统。 基于这些需求,您的存储方案是否兼具分布式文件系统和关系数据库的优点? 基于这一需求,HBase、MongoDB应运而生。


数据分析大数据处理最重要的环节是数据分析,数据分析通常分为批处理和流处理两类。


批处理:在一定期间内统一处理大量脱机数据。 对应的处理框架有Hadoop MapReduce、Spark、Flink等; 流处理:处理运动中的数据。 即,在接收数据的同时进行处理。 对应的处理框架是Storm、Spark Streaming、Flink Streaming等。 批处理和流处理各有适当的场景,由于对时间不敏感或硬件资源有限,可以采用批处理; 如果时间敏感性和及时性要求高,可以采用流处理。 随着服务器硬件价格的下降,对及时性的要求越来越高,流处理(如股价预测和电子商务数据分析)变得越来越普遍。


上面的框架都需要通过编程进行数据分析,如果不是后台工程师,就不能进行数据分析吗? 不,当然,大数据是非常完备的生态圈,有需求就有解决办法。 为了让熟悉SQL的人也能分析数据,查询分析框架应运而生。 常用的有Hive、Spark SQL、Flink SQL、Pig、Phoenix等。 这些框架提供了使用标准SQL或类SQL语法进行数据查询分析的灵活性。 这些SQL通过分析进行优化,然后转换为相应的作业程序执行。 例如,Hive本质上将SQL转换为MapReduce作业,Spark SQL将SQL转换为一系列RDDs和转换关系(transformations ),而Phoenix将SQL查询转换为一个或多个HBase Scan


数据应用数据分析完成后,接下来是数据APP领域。 这取决于实际的业务需求。 例如,可以将数据可视化表示,也可以将数据用于推荐算法的优化。 这个运用现在很普遍,包括短视频的个性化推荐、电子商务商品推荐、头条新闻推荐等。 当然,也可以将数据用于机器学习模型的训练。 它们属于其他领域的范畴,将带有相应的框架和技术栈进行处理,在此不作说明。




图片引用: https://www.edu reka.co/blog/Hadoop -生态系统


GITHUB地址: https://github.com /海柏营/big data-notes #文件链接


推荐阅读
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
  • 精选10款Python框架助力并行与分布式机器学习
    随着神经网络模型的不断深化和复杂化,训练这些模型变得愈发具有挑战性,不仅需要处理大量的权重,还必须克服内存限制等问题。本文将介绍10款优秀的Python框架,帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 本文详细介绍了 `org.apache.hadoop.hdfs.server.namenode.FSNamesystem.shouldUseDelegationTokens()` 方法的用途和实际应用场景,并提供了多个代码示例以帮助开发者更好地理解和使用该方法。 ... [详细]
  • 本文介绍了Hadoop的核心组件,包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • Python 领跑!2019年2月编程语言排名更新
    根据最新的编程语言流行指数(PYPL)排行榜,Python 在2019年2月的份额达到了26.42%,稳坐榜首位置。 ... [详细]
  • Markdown 编辑技巧详解
    本文介绍如何使用 Typora 编辑器高效编写 Markdown 文档,包括代码块的插入方法等实用技巧。Typora 官方网站:https://www.typora.io/ 学习资源:https://www.markdown.xyz/ ... [详细]
  • 随着技术的发展,Python因其高效性和灵活性,在多个领域得到了广泛应用,特别是在大数据处理和网络爬虫开发方面。本文将探讨学习Python是否能够胜任大数据和网络爬虫工程师的工作,并分析其职业前景。 ... [详细]
  • 利用Python进行新冠病毒发展趋势的深度分析
    面对新冠病毒的发展趋势,许多初学者可能感到困惑。本文旨在提供一个详细的指南,介绍如何使用Python进行数据获取、清洗、可视化及分析,帮助读者理解并掌握这一过程。 ... [详细]
  • 从财务转型为数据分析师的两年历程
    本文作者小尧,曾在税务师事务所工作,后成功转型为数据分析师。本文分享了他如何确定职业方向、积累行业知识,并最终实现转型的经验。 ... [详细]
  • 使用 Jupyter Notebook 实现 Markdown 编写与代码运行
    Jupyter Notebook 是一个开源的基于网页的应用程序,允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码,并实时查看运行结果。 ... [详细]
  • 本文整理了关于Sia去中心化存储平台的重要网址和资源,旨在为研究者和用户提供全面的信息支持。 ... [详细]
  • 专业人士如何做自媒体 ... [详细]
author-avatar
mobiledu2502911457
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有