热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

github数据分析项目(bigemap好用吗)

frompc˃大数据处理流程˂imgsrchttps:p26.toutiaoimg.comoriginpgc-image5bad25974bd34106ac179ee


《GitHub精选》是一个分享Github优秀项目的栏目,包括技术、学习、实用性和各种有趣的内容。 这次推荐的是大数据的内容。 想学习大数据的学生的福利来了。




大数据处理流程


学习框架日志收集框架:框架、日志统计、文件投注


分布式文件存储系统Hadoop HDFS


数据库: Mongodb、h基本型


分布式计算框架:


批处理框架: Hadoop MapReduce流处理框架: Storm混合处理框架: Spark、Flink查询分析框架: Hive、Spark SQL、Flink SQL、Pig、Pig


集群资源管理器: Hadoop YARN


分布式协调服务: Zookeeper


数据迁移工具: Sqoop


任务调度框架: Azkaban、Oozie


群集部署和监视: Ambari、云era管理器


数据收集:大数据处理的第一步是数据的收集。 由于目前大中型项目通常采用微服务架构进行分布式配置,因此数据采集需要在多台服务器上进行,采集过程不会影响常规业务的开展。 基于这些需求,诞生了Flume、Logstash、Kibana等各种日志收集工具。 这些工具可以通过简单的配置进行复杂的数据收集和数据聚合。


数据存储收集数据后,下一个问题是该如何保存数据。 众所周知,传统的关系数据库(如MySQL和Oracle )具有快速存储结构化数据和支持随机访问的优点。 但是,大数据的数据结构通常是日志数据等半结构化,甚至视频、音频数据等非结构化,为了解决大量半结构化数据和非结构化数据的存储,Hadoop HDFS、KFS、GFS等分布式文件


分布式文件系统完美地解决了大量的数据存储问题,但优秀的数据存储系统必须同时考虑数据存储和访问问题。 例如,希望随机访问数据的人擅长传统的关系数据库,但不擅长分布式文件系统。 基于这些需求,您的存储方案是否兼具分布式文件系统和关系数据库的优点? 基于这一需求,HBase、MongoDB应运而生。


数据分析大数据处理最重要的环节是数据分析,数据分析通常分为批处理和流处理两类。


批处理:在一定期间内统一处理大量脱机数据。 对应的处理框架有Hadoop MapReduce、Spark、Flink等; 流处理:处理运动中的数据。 即,在接收数据的同时进行处理。 对应的处理框架是Storm、Spark Streaming、Flink Streaming等。 批处理和流处理各有适当的场景,由于对时间不敏感或硬件资源有限,可以采用批处理; 如果时间敏感性和及时性要求高,可以采用流处理。 随着服务器硬件价格的下降,对及时性的要求越来越高,流处理(如股价预测和电子商务数据分析)变得越来越普遍。


上面的框架都需要通过编程进行数据分析,如果不是后台工程师,就不能进行数据分析吗? 不,当然,大数据是非常完备的生态圈,有需求就有解决办法。 为了让熟悉SQL的人也能分析数据,查询分析框架应运而生。 常用的有Hive、Spark SQL、Flink SQL、Pig、Phoenix等。 这些框架提供了使用标准SQL或类SQL语法进行数据查询分析的灵活性。 这些SQL通过分析进行优化,然后转换为相应的作业程序执行。 例如,Hive本质上将SQL转换为MapReduce作业,Spark SQL将SQL转换为一系列RDDs和转换关系(transformations ),而Phoenix将SQL查询转换为一个或多个HBase Scan


数据应用数据分析完成后,接下来是数据APP领域。 这取决于实际的业务需求。 例如,可以将数据可视化表示,也可以将数据用于推荐算法的优化。 这个运用现在很普遍,包括短视频的个性化推荐、电子商务商品推荐、头条新闻推荐等。 当然,也可以将数据用于机器学习模型的训练。 它们属于其他领域的范畴,将带有相应的框架和技术栈进行处理,在此不作说明。




图片引用: https://www.edu reka.co/blog/Hadoop -生态系统


GITHUB地址: https://github.com /海柏营/big data-notes #文件链接


推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 在前一篇文章《Hadoop》系列之“踽踽独行”(二)中,我们详细探讨了云计算的核心概念。本章将重点转向物联网技术,全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈,我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外,还将讨论物联网面临的挑战,如数据安全和隐私保护等问题,并展望其在未来技术融合中的重要角色。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • SSAS入门指南:基础知识与核心概念解析
    ### SSAS入门指南:基础知识与核心概念解析Analysis Services 是一种专为决策支持和商业智能(BI)解决方案设计的数据引擎。该引擎能够为报告和客户端应用提供高效的分析数据,并支持在多维数据模型中构建高性能的分析应用。通过其强大的数据处理能力和灵活的数据建模功能,Analysis Services 成为了现代 BI 系统的重要组成部分。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 【漫画解析】数据已删,存储空间为何未减?揭秘背后真相
    在数据迁移过程中,即使删除了原有数据,存储空间却未必会相应减少。本文通过漫画形式解析了这一现象背后的真相。具体来说,使用 `mysqldump` 命令进行数据导出时,该工具作为 MySQL 的逻辑备份工具,通过连接数据库并查询所需数据,将其转换为 SQL 语句。然而,这种操作并不会立即释放存储空间,因为数据库系统可能保留了已删除数据的碎片信息。文章进一步探讨了如何优化存储管理,以确保数据删除后能够有效回收存储空间。 ... [详细]
  • 2016-2017学年《网络安全实战》第三次作业
    2016-2017学年《网络安全实战》第三次作业总结了教材中关于网络信息收集技术的内容。本章主要探讨了网络踩点、网络扫描和网络查点三个关键步骤。其中,网络踩点旨在通过公开渠道收集目标信息,为后续的安全测试奠定基础,而不涉及实际的入侵行为。 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • Linux CentOS 7 安装PostgreSQL 9.5.17 (源码编译)
    近日需要将PostgreSQL数据库从Windows中迁移到Linux中,LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]
  • 本文介绍了如何通过Sybase Central连接到示例数据库,并查看其中的表和其他对象。主要内容包括启动Sybase Central、建立连接、查看表列表及表的具体信息。 ... [详细]
  • 通过使用Sqoop导入工具,可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言,可以通过在导入命令中添加WHERE子句来指定所需的数据范围,从而在数据库服务器上执行相应的SQL查询,并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性,还确保了数据的准确性和完整性。 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • Web开发框架概览:Java与JavaScript技术及框架综述
    Web开发涉及服务器端和客户端的协同工作。在服务器端,Java是一种优秀的编程语言,适用于构建各种功能模块,如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示,同时借助JavaScript增强交互性和动态效果。此外,现代Web开发还广泛使用各种框架和库,如Spring Boot、React和Vue.js,以提高开发效率和应用性能。 ... [详细]
  • 触发器的稳态数量分析及其应用价值
    本文对数据库中的SQL触发器进行了稳态数量的详细分析,探讨了其在实际应用中的重要价值。通过研究触发器在不同场景下的表现,揭示了其在数据完整性和业务逻辑自动化方面的关键作用。此外,还介绍了如何在Ubuntu 22.04环境下配置和使用触发器,以及在Tomcat和SQLite等平台上的具体实现方法。 ... [详细]
  • 在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量,分析了当输入数据超过128MB时是否会自动拆分,以及Map数量是否越多越好的问题。通过实际案例和实验数据,本文提供了具体的配置建议,帮助用户在不同场景下实现最佳性能。 ... [详细]
author-avatar
mobiledu2502911457
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有