热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据岗位要求之大数据开发工程师

    继续介绍大数据系列岗位的要求,今天是“最热门”的岗位大数据开发工程师,之所以说热门主要是基于2个原因,一是因为很多应届生或者想转入大数据行业的同学,都是期望从事“大数据开发

    继续介绍大数据系列岗位的要求,今天是“最热门”的岗位大数据开发工程师,之所以说热门主要是基于2个原因,一是因为很多应届生或者想转入大数据行业的同学,都是期望从事“大数据开发”这一定位不是很清晰的岗位;二是因为至少有3个岗位可以称为“大数据开发”,所以这里的“最热门”需要详细分析。老套路先从几个大厂的岗位要求说起。

今日头条

1、本科以上学历,软件工程/计算机/通信/数学等相关专业;
2、熟悉Hive SQL语言,熟悉shell, python等至少一种脚本语言;
3、有hadoop、spark、flink等至少一种大数据平台的使用经验;
4、理解能力强,善于沟通,有责任心和团队精神;
5、有数据仓库建设、商业数据分析、增长项目经验者优先。

有赞

1、java/scala至少熟练使用一种
2、具备扎实的计算机理论基础, 对数据结构及算法有较强的功底
3、熟悉至少一种实时计算引擎 Storm, Spark Streaming, Flink, 对hadoop生态其他组件有一定了解,比如 HBase, hadoop, Hive, Druid等
4、有大规模集群应用开发经验优先
5、有BAT工作经验优先
6、具备良好工作习惯和团队协作精神

华为

1、计算机或相关专业本科及以上学历,对数据处理、数据建模、数据分析等有深刻认识和实战经验;
2、熟悉Hadoop/Spark/Hive/HBase等大数据工具,主导过大型数据平台建设者优先;
3、精通SQL,熟悉常用的关系型数据库、非关系性数据库和数据仓库,具有SQL性能优化经验;
4、了解微服务开发理念、实现技术,熟悉常见设计模式,熟练掌握SSH开发框架,熟练进行Java、Python代码编写,熟悉多线程编程;
5、思维敏捷,对新技术敏感,有较强的钻研学习能力;

蚂蚁金服

1、三年以上工作经验,有大型互联网行业从业经验
2、有Hadoop/Hive/Spark/Storm/Zookeeper 等相关开发经验或从事分布式相关系统的开发工作
3、熟悉Linux/Unix系统和丰富的Java开发经验
4、具有强烈的责任心,求知欲望强

小影

1、本科及以上学历,计算机相关专业
2、3年以上企业级数据仓库开发经验
3、熟悉数据仓库理论,具备复杂业务需求梳理能力
4、熟练SQL开发,精通Mysql等关系型数据库中的一种或几种
5、熟练掌握Hadoop及Map-Reduce应用开发,熟练掌握HBase、Hive、Storm、spark等大数据开发工具中一种或几种
6、熟悉Linux系统,具备shell、python等脚本开发能力者优先
7、学习能力强,喜欢研究开源新技术,有团队观念,具备独立解决问题的能力

能力三核模型分析

《大数据岗位要求之大数据开发工程师》 大数据开发工程师.png

综合结果如下

知识

1、本科及以上学历(3)
2、计算机相关专业(4)

硬技能

1、熟练掌握hadoop、Hbase、Hive、Storm、Spark Streaming、flink等大数据开发工具中一种或几种(5)
2、熟悉shell、python、scala、java等至少一种开发语言(5)
3、熟悉linux/unix系统(2)
4、有数据仓库建设、数据处理、数据建模、数据分析相关经验(2)
5、精通sql,熟悉常用的关系型数据库和非关系型数据库(1)

才干or 软技能

1、良好的团队精神(3)
2、较强的学习能力和欲望(3)
3、强烈的责任心(2)
4、独立解决问题能力(1)

分析

    从上面硬技能来看,同时具备1,2,3项不是很难,这个都是程序开发的范畴,但是要和4,5两个条件同时具备这个就非常难了,这是明显的两个职位。所以需要先看一下工作职责和内容

岗位职责

1、负责数据仓库建设、ETL开发、数据分析(3)
2、负责数据指标统计(2)
3、负责大数据实时计算平台及业务开发(1)
4、负责大数据平台建设及维护(2)
    通过上面4项总结后的岗位职责可以看出,1、2两项职责是针对数据仓库岗位要求,也就是前面系列文章大数据岗位要求之数据仓库所介绍内容;第3项岗位职责主要是对应第一项hadoop生态体系硬技能要求的,主要是在实时计算及二次开发方面;第4项岗位要求是大数据平台工具的开发,一般包括开发平台、调度系统、元数据平台等工具,主要对应java等语言开发能力要求。

个人经验

    通过上述分析可以知道数据仓库开发、实时计算开发、大数据平台开发一般都会被称作大数据开发,其实这是3个岗位,各自要求也不尽相同。希望对应届生同学或者想转入大数据行业的同学有所帮助。
    延伸一下hadoop生态体系太庞大了,包括但不限于hdfs、hive、hbase、storm、spark、flink、kafka、flume等,所以作为一个优秀的大数据开发,尤其是大数据运维同学的学习能力的要求是非常高的。在非大数据同学看来这些都是大数据同学应该掌握的,并且在一般公司招聘时也不会每个系统招一个人,也都是综合要求,这样大神或者架构师市面上还是有的,只是太少了,所以大数据开发的薪酬待遇高也是有道理的。

系列文章

大数据岗位要求之数据测试
大数据岗位要求之数据挖掘
大数据岗位要求之数据仓库
大数据岗位要求之数据产品经理
大数据岗位要求之数据分析师
大数据岗位介绍-引子(能力三核模型)


推荐阅读
  • 字节跳动深圳研发中心安全业务团队正在火热招募人才! ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 在第二课中,我们将深入探讨Scala的面向对象编程核心概念及其在Spark源码中的应用。首先,通过详细的实战案例,全面解析Scala中的类和对象。作为一门纯面向对象的语言,Scala的类设计和对象使用是理解其面向对象特性的关键。此外,我们还将介绍如何通过阅读Spark源码来进一步巩固对这些概念的理解。这不仅有助于提升编程技能,还能为后续的高级应用开发打下坚实的基础。 ... [详细]
  • 如何精通编程语言:全面指南与实用技巧
    如何精通编程语言:全面指南与实用技巧 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • 第二十五天接口、多态
    1.java是面向对象的语言。设计模式:接口接口类是从java里衍生出来的,不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]
  • Shell脚本编译器的全面解析与应用指南 ... [详细]
  • 阿里巴巴终面技术挑战:如何利用 UDP 实现 TCP 功能?
    在阿里巴巴的技术面试中,技术总监曾提出一道关于如何利用 UDP 实现 TCP 功能的问题。当时回答得不够理想,因此事后进行了详细总结。通过与总监的进一步交流,了解到这是一道常见的阿里面试题。面试官的主要目的是考察应聘者对 UDP 和 TCP 在原理上的差异的理解,以及如何通过 UDP 实现类似 TCP 的可靠传输机制。 ... [详细]
  • Python多线程编程技巧与实战应用详解 ... [详细]
  • 本指南从零开始介绍Scala编程语言的基础知识,重点讲解了Scala解释器REPL(读取-求值-打印-循环)的使用方法。REPL是Scala开发中的重要工具,能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习,读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]
  • 如何利用Java 5 Executor框架高效构建和管理线程池
    Java 5 引入了 Executor 框架,为开发人员提供了一种高效管理和构建线程池的方法。该框架通过将任务提交与任务执行分离,简化了多线程编程的复杂性。利用 Executor 框架,开发人员可以更灵活地控制线程的创建、分配和管理,从而提高服务器端应用的性能和响应能力。此外,该框架还提供了多种线程池实现,如固定线程池、缓存线程池和单线程池,以适应不同的应用场景和需求。 ... [详细]
  • 本文深入解析了Java 8并发编程中的`AtomicInteger`类,详细探讨了其源码实现和应用场景。`AtomicInteger`通过硬件级别的原子操作,确保了整型变量在多线程环境下的安全性和高效性,避免了传统加锁方式带来的性能开销。文章不仅剖析了`AtomicInteger`的内部机制,还结合实际案例展示了其在并发编程中的优势和使用技巧。 ... [详细]
  • 在Python多进程编程中,`multiprocessing`模块是不可或缺的工具。本文详细探讨了该模块在多进程管理中的核心原理,并通过实际代码示例进行了深入分析。文章不仅总结了常见的多进程编程技巧,还提供了解决常见问题的实用方法,帮助读者更好地理解和应用多进程编程技术。 ... [详细]
  • 在Python网络编程中,多线程技术的应用与优化是提升系统性能的关键。线程作为操作系统调度的基本单位,其主要功能是在进程内共享内存空间和资源,实现并行处理任务。当一个进程启动时,操作系统会为其分配内存空间,加载必要的资源和数据,并调度CPU进行执行。每个进程都拥有独立的地址空间,而线程则在此基础上进一步细化了任务的并行处理能力。通过合理设计和优化多线程程序,可以显著提高网络应用的响应速度和处理效率。 ... [详细]
author-avatar
世界和平啊
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有