热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

如何高效启动大数据应用之旅?

在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。

In my previous article, I discussed what is big data? What are the differences between big data& data mining, what are the future scopes of big data? In this article, we will discuss how to get started with big data?

在上一篇文章中,我讨论了什么是大数据 ? 大数据与数据挖掘之间的区别是什么 ? 大数据的未来范围是什么 ? 在本文中,我们将讨论如何开始使用大数据 ?

As we all know that field of big data is very vast and as it is a new technology these days so, it can be quite challenging to start learning whoever wants to do so. So, in this article, I will try to show you a guided path to start the journey with big data and grab a good job of big data in companies. Here, in this article I have tried to describe & guide through step by step, hope, it will help you all, to get on the right track.

众所周知,大数据领域非常广泛,并且由于这是当今的一项新技术,因此开始学习任何想这样做的人都可能会面临很大的挑战。 因此,在本文中,我将尝试向您展示一条指导性路径,以开始使用大数据的旅程,并抓住公司中的大数据工作。 在本文中,我试图逐步描述和指导,希望对您有所帮助,以使您走上正确的道路。

脚步 (Steps)

The first and the most important step is to determine the right role according to our interests and skillset we have. Without determining our goal (position or role) for which we want to prepare it will be like "shooting in the dark".

第一步也是最重要的一步是根据我们的兴趣和技能确定合适的角色。 没有确定我们要为其准备的目标(位置或角色),就像“在黑暗中射击”

So, first we have to determine our role, now basically if we speak broadly the roles in the big data industry can be classified into two major categories:

因此,首先,我们必须确定我们的角色,现在基本上,如果我们大致讲大数据行业中的角色,可以分为两大类:

  1. Big Data Engineering

    大数据工程

  2. Big Data Analytics

    大数据分析

Let us discuss about the roles and requisites of big data analyst and big data engineer/ developer.

让我们讨论大数据分析师和大数据工程师/开发人员的角色和必要条件。

大数据工程师或开发人员的角色 (Role of Big Data Engineer or developer)

  • As the word engineer suggests, you should know how to engineer the big data, means you should be able to see a different perspective or different outcome of the same data that all others are seeing as normal bulk or mess of data.

    就像工程师一词所暗示的那样,您应该知道如何设计大数据,这意味着您应该能够看到同一数据的不同视角或不同结果,而其他所有人都将它们视为正常的批量或混乱数据。

  • You have to figure out that the bulk of data and also have to figure out how the SQL database works effectively.

    您必须弄清楚大量数据,还必须弄清楚SQL数据库如何有效地工作。

  • You should be able to handle the bulk of data using technologies like Hadoop/Spark, programming languages etc.

    您应该能够使用Hadoop / Spark,编程语言等技术处理大量数据。

BIG DATA开发人员/工程师的需求 (Requisites for BIG DATA developer/engineer)

  1. Should have a good grip over SQL, core Java, JS, OOAD (object-oriented analysis and design).

    应该对SQL , 核心Java , JS ,OOAD有良好的掌握(面向对象的分析和设计)。

  2. Should have preliminary knowledge of R and python

    应该具有R和python的初步知识

  3. Mastering with different tools like Hadoop, MapReduce, Spark etc.

    精通Hadoop,MapReduce,Spark等不同工具

  4. Having a good analytical problem-solving approach, problem- solving, code writing skills.

    具有良好的分析性问题解决方法,问题解决能力,代码编写能力。

Skillset for data scientist

Figure: Skillset for data scientist

图:数据科学家的技能

Image source: https://www.experfy.com/blog/a-big-data-analyst-or-a-big-data-developer-what-do-you-want-to-becom

图片来源:https://www.experfy.com/blog/a-big-data-analyst-or-a-big-data-developer-what-do-you-want-to-becom

大数据开发人员/工程师的需求 (Requisites for Big Data developer/engineering)

The collection of huge data (big data) needs proper analysis for giving expectable and desired results, so, for its proper analysis, there is a need for appropriate database management systems. The main purpose of big data analyzation is to improve or expand the business of companies.

大数据(大数据)的收集需要进行适当的分析以给出预期的结果,因此,为了进行适当的分析,需要适当的数据库管理系统。 大数据分析的主要目的是改善或扩展公司的业务。

Tracking and using the different data of companies like transactions, searches, user profile information, user interest everything should be analyzed in order to extract fruitful outcome.

跟踪和使用公司的不同数据(例如交易,搜索,用户个人资料信息,用户兴趣),应该对其进行分析,以提取出丰硕的成果。

大数据分析的必要条件 (Requisites for BIG DATA ANALYST)

  1. Good knowledge of maths and statistics.

    精通数学和统计学。

  2. Good knowledge of tools and techniques used in big data storing, processing and analysis, such as Hadoop, Spark etc.

    熟悉大数据存储,处理和分析中使用的工具和技术,例如Hadoop,Spark等。

  3. You should have a focused mind and very clear concepts of maths, statistics and different Big Data technologies in order to become a good big data analyst.

    为了成为一名优秀的大数据分析师,您应该有专心的头脑和非常清晰的数学,统计学和不同的大数据技术概念。

Big data analytics

Figure: Big data analytics

图:大数据分析

Image source: https://www.experfy.com/blog/a-big-data-analyst-or-a-big-data-developer-what-do-you-want-to-become

图片来源:https://www.experfy.com/blog/a-big-data-analyst-or-a-big-data-developer-what-do-you-want-to-become

Now, when we have an understanding of roles that suits our skills and interest, so now once we have decided on our role, we can begin with the learning process. As we all know that domain of Big Data is full with various technologies, so, its quite difficult to master them all, so, below I am attaching a Big data engineer/ analyst path flow chart.

现在,当我们了解适合自己技能和兴趣的角色时,那么一旦我们决定了角色,就可以从学习过程开始。 众所周知,大数据领域已经充满了各种技术,因此很难完全掌握所有技术,因此,在下面我附上了大数据工程师/分析师的流程图。

flow chart for big data engineer path

Figure: flow chart for big data engineer path

图:大数据工程师路径流程图

Image source: https://www.analyticsvidhya.com/blog/2017/03/big-data-learning-path-for-all-engineers-and-data-scientists-out-there/

图片来源:https://www.analyticsvidhya.com/blog/2017/03/big-data-learning-path-for-all-engineers-and-data-scientists-out-there/

Conclusion:

结论:

I hope this article might have helped you to clear up some of the mess running over your mind about how to start learning big data! So, now when once you are decided with your role you can follow the tree and also refer to some top certifications that I mentioned in my previous articles Big Data: an emerging trend on IT sector.

我希望本文能帮助您清除一些关于如何开始学习大数据的麻烦! 因此,现在,一旦确定了自己的角色,您就可以沿用这棵树,并参考我在之前的文章《 大数据:IT部门的新兴趋势》中提到的一些顶级认证。

So, now wear your wings and get started, will see you in the next article. Till then Stay connected, be healthy and keep learning!

因此,现在戴上翅膀开始使用,将在下一篇文章中见到您。 直到保持联系,保持健康并继续学习!

翻译自: https://www.includehelp.com/big-data/how-to-get-started-with-big-data.aspx




推荐阅读
  • 本文深入探讨了数据库性能优化与管理策略,通过实例分析和理论研究,详细阐述了如何有效提升数据库系统的响应速度和处理能力。文章首先介绍了数据库性能优化的基本原则和常用技术,包括索引优化、查询优化和存储管理等。接着,结合实际应用场景,讨论了如何利用容器化技术(如Docker)来部署和管理数据库,以提高系统的可扩展性和稳定性。最后,文章还提供了具体的配置示例和最佳实践,帮助读者在实际工作中更好地应用这些策略。 ... [详细]
  • 在数据表中,我需要触发一个操作来刷新特定列的数据。例如,对于以下表格:| ID | Name | IsDeleted ||----|-------|-----------|| 1 | test | True || 2 | test2 | False |我希望在点击“更新”按钮时,能够仅刷新选定行的“IsDeleted”列。这将有助于确保数据的实时性和准确性。 ... [详细]
  • 在CentOS上部署和配置FreeSWITCH
    在CentOS系统上部署和配置FreeSWITCH的过程涉及多个步骤。本文详细介绍了从源代码安装FreeSWITCH的方法,包括必要的依赖项安装、编译和配置过程。此外,还提供了常见的配置选项和故障排除技巧,帮助用户顺利完成部署并确保系统的稳定运行。 ... [详细]
  • Node.js 配置文件管理方法详解与最佳实践
    本文详细介绍了 Node.js 中配置文件管理的方法与最佳实践,涵盖常见的配置文件格式及其优缺点,并提供了多种实用技巧和示例代码,帮助开发者高效地管理和维护项目配置,具有较高的参考价值。 ... [详细]
  • 2016-2017学年《网络安全实战》第三次作业
    2016-2017学年《网络安全实战》第三次作业总结了教材中关于网络信息收集技术的内容。本章主要探讨了网络踩点、网络扫描和网络查点三个关键步骤。其中,网络踩点旨在通过公开渠道收集目标信息,为后续的安全测试奠定基础,而不涉及实际的入侵行为。 ... [详细]
  • 在近期的项目开发过程中,ORM层采用了MyBatis,并且需要连接多个数据库,这带来了多数据源配置的挑战。为了解决这一问题,我们可以通过巧妙运用注解来实现优雅的数据源切换,确保系统的灵活性和可维护性。这种方法不仅简化了配置,还提高了代码的可读性和扩展性。 ... [详细]
  • 英语面试技巧:提升个人技能与表现
    在英语面试中,个人技能是指除专业知识外,能够促进职业发展的各种能力。虽然你可能具备多种技能,但建议重点突出与目标岗位最相关的几项,以增强面试官对你专业能力和适应性的认可。 ... [详细]
  • 掌握PHP编程必备知识与技巧——全面教程在当今的PHP开发中,了解并运用最新的技术和最佳实践至关重要。本教程将详细介绍PHP编程的核心知识与实用技巧。首先,确保你正在使用PHP 5.3或更高版本,最好是最新版本,以充分利用其性能优化和新特性。此外,我们还将探讨代码结构、安全性和性能优化等方面的内容,帮助你成为一名更高效的PHP开发者。 ... [详细]
  • Go 项目中数据库配置文件的优化与应用 ... [详细]
  • 在尝试对从复杂 XSD 生成的类进行序列化时,遇到了 `NullReferenceException` 错误。尽管已经花费了数小时进行调试和搜索相关资料,但仍然无法找到问题的根源。希望社区能够提供一些指导和建议,帮助解决这一难题。 ... [详细]
  • 本周,我深入研究了 ECharts 插件的使用方法,整体感觉插件操作较为简便,但后台算法较为复杂。此外,我还学习了 MySQL 函数的新应用,进一步提升了数据库操作的灵活性。同时,分享了自己在 Python 书籍外借过程中的体验,总结了一些实用的借阅技巧和心得。 ... [详细]
  • STAR: 转录组数据分析中的高效比对工具介绍
    欢迎关注“生信修炼手册”!STAR 是一款专为 RNA-seq 数据设计的高效比对工具,以其卓越的速度和高灵敏度著称。该软件在处理大规模转录组数据时表现出色,能够显著提高比对效率和准确性。此外,GATK 推荐使用 STAR 进行预处理步骤,以确保后续分析的可靠性。 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • 本文详细介绍了使用响应文件在静默模式下安装和配置Oracle 11g的方法。硬件要求包括:内存至少1GB,具体可通过命令`grep -i memtotal /proc/meminfo`进行检查。此外,还提供了详细的步骤和注意事项,确保安装过程顺利进行。 ... [详细]
  • 智能制造数据综合分析与应用解决方案
    在智能制造领域,生产数据通过先进的采集设备收集,并利用时序数据库或关系型数据库进行高效存储。这些数据经过处理后,通过可视化数据大屏呈现,为生产车间、生产控制中心以及管理层提供实时、精准的信息支持,助力不同应用场景下的决策优化和效率提升。 ... [详细]
author-avatar
lady张昕彤
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有