热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据开发工程师到底是干嘛的?日常做什么呢?

最近后台收到很多私信,内容大都差不多,总结下来就是:目前在学习大数据专业,想提前了解一下大数据开发工程师的工作职责是怎么的&

最近后台收到很多私信,内容大都差不多,总结下来就是:


目前在学习大数据专业,想提前了解一下大数据开发工程师的工作职责是怎么的?需要提前准备些什么?大数据分了哪些岗位?


笔者已从事数据开发工作三年有余,结合自己的工作经历和几位同行的经验来聊聊这几个问题。希望可以帮到你。


1、什么是大数据?

大数据的几个明显的特点:


  • 海量的数据
  • 数据多样性
  • 数据增速快

以上特点带来了数据的存储和计算问题,大数据技术的出现就是为了解决上述问题的。

接着往下看,下图 1-1 展示了数据端到端的流程,从左到右依次为:数据产生、数据采集和传输、数据存储,处理、数据应用。
在这里插入图片描述
为了解决这个过程中大数据场景遇到的问题,我们可以使用哪些技术呢?

数据采集和传输:Sqoop、Flume、DataX、Canal 等。
数据存储:HDFS、HBase、ES、ClickHouse、Kafka等。
数据计算:MapReduce、Spark、Flink 、Hive、Presto 等。

如果你现在还不了解这些技术?不要紧,先有个大概的印象就好。技术不断在进步,先理解技术产生的背景,比技术本身更重要。


2、大数据开发工程师的分类 & 职责

简单总结如下,公司越大,岗位分得越细。
在这里插入图片描述
看了上面大数据细分的岗位,不难发现,这是一个比较庞大的生态,不是一两句话就能概括的,下面我尽可能的还原每个岗位的工作职责。

数据运维工程师

① 协调机器资源,采购、缩减、预算等等。

② 集群组件的维护、升级。

③ 处理集群和用户的各种问题…

④ 如果公司采购了阿里/网易这样的数据平台,就会很省心。

数据平台开发工程师

① 开发面向数据开发使用的工具,比如元数据系统、数据质量、数据采集、数据计算平台、任务调度平等。自研或者基于开源的项目进行二次开发。

② 开发面向产品和数据分析师的工具:数据报表平台、数据分析平台、数据查询平台(AdHoc)等。

③ 需要熟悉 Web 后端开发语言,比如 Java/Go等,熟悉大数据开源组件,可以进行二次开发等。

数据仓库工程师

① 离线数仓的开发,比如数仓建模、数据清洗。

② 实时数仓:实时指标的开发,使用Spark Streaing 、Flink。

③ 主要是写 SQL(离线、实时开发平台)、需要理解业务,开发业务报表。

④ 需要业务能力,根据业务数据进行建模。

数据测试工程师

① 一般公司没有这个岗位,大概率又开发工程师进行自测。

② 测试数仓开发的指标逻辑、数据的准确性。

③ 测试业务埋点上报的准确性等。

数据分析师

不同的公司也有些不同的叫法:比如阿里的BI,美团的商分

① 临时取数:比如大型活动,某一次运营活动等数据查询分析。

② 日报、周报、月报、季报、年报、报表等等。

③ 专题分析,比如用户画像分析、ROI分析、风控分析、指标体系的搭建等

④ 市场分析,比如要做竞品分析、渠道分析、行业分析等等。

⑤ 编写数据分析报告。

数据挖掘师

① 用户基础研究,用户生命周期刻画(进入、成长、成熟、衰退、流失)、用户细分模型、用户价值模型、用户活跃度模型、用户意愿度识别模型、用户偏好识别模型、用户流失预警模型、用户激活模型等。

② 个性化推荐算法:基于协同过滤(USERBASE/ITEMBASE)的推荐,基于内容推荐,基于关联规则Apriot算法推荐,基于热门地区、季节、商品、人群的推荐等。

③ 风控模型:恶意注册模型、异地识别模型、欺诈识别模型、高危会员模型;电商领域(炒信模型、刷单模型、职业差评师模型、虚假发货模型、反欺诈模型);金融领域(欺诈评分模型、征信评分模型、催收模型、虚假账单识别模型等)。

④ 文本挖掘、语义识别、图像识别,等等。

算法工程师

① 语音、图像、自然语言处理、深度学习等机器学习算法开发及优化。

② 挖掘并推进算法在业务中应用:比如美团外卖的配送算法、滴滴打车的派单算法。

③ 推荐系统、用户画像。

数据产品经理

① 协助公司各业务⽅向⼤数据应⽤产品调研、规划、执⾏。

② 数据产品的开发项目管理工作,确保项目按照需求如期完成。


3、总结

以上大数据的岗位的职责,也只是冰山一角,每一家公司独一岗位的分类和职责也不太一样。但是实现数据价值的目标是一致的。

看到好多人都在说大数据工程师是 SQL Boy,也有自嘲,算法工程师自嘲为算命工程师,哈哈,简直不能再形象了。

大数据学习指南 专注于大数据技术分享与交流。
在这里插入图片描述


推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • hive和mysql的区别是什么[mysql教程]
    hive和mysql的区别有:1、查询语言不同,hive是hql语言,MySQL是sql语句;2、数据存储位置不同,hive把数据存储在hdfs上,MySQL把数据存储在自己的系统 ... [详细]
  • hadoop3.1.2 first programdefault wordcount (Mac)
    hadoop3.1.2安装完成后的第一个实操示例程 ... [详细]
  • 本文介绍了在sqoop1.4.*版本中,如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件,并重新编译,可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码,重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]
  • 为开发者提供了一系列实用的参考网站和资源链接,包括HTML速查手册( 和 ),帮助开发者快速查找和学习相关技术知识。此外,还涵盖了其他重要的开发工具和文档,为编程工作提供全面支持。 ... [详细]
  • 深入理解Spark框架:RDD核心概念与操作详解
    RDD是Spark框架的核心计算模型,全称为弹性分布式数据集(Resilient Distributed Dataset)。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作,包括创建、转换和行动操作等,帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段,进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]
  • 本文介绍了如何使用Hive分析用户最长连续登录天数的方法。首先对数据进行排序,然后计算相邻日期之间的差值,接着按用户ID分组并累加连续登录天数,最后求出每个用户的最大连续登录天数。此外,还探讨了该方法在其他领域的应用,如股票市场中最大连续涨停天数的分析。 ... [详细]
  • 会玩shiny的数据产品经理更好,是这样吗?
    作者:刘洋溢R语言中文社区专栏作者知乎ID:https:zhuanlan.zhihu.comp51396601前言上篇我分享了自己从接触R到熟练掌握R以 ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • Maven构建Hadoop,
    Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引 序  上一篇,我们编写了第一个MapReduce,并且成功的运行了Job,Hadoop1.x是通过ant ... [详细]
author-avatar
手机用户2602917083
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有