① 开发面向数据开发使用的工具,比如元数据系统、数据质量、数据采集、数据计算平台、任务调度平等。自研或者基于开源的项目进行二次开发。
② 开发面向产品和数据分析师的工具:数据报表平台、数据分析平台、数据查询平台(AdHoc)等。
③ 需要熟悉 Web 后端开发语言,比如 Java/Go等,熟悉大数据开源组件,可以进行二次开发等。
数据仓库工程师
① 离线数仓的开发,比如数仓建模、数据清洗。
② 实时数仓:实时指标的开发,使用Spark Streaing 、Flink。
③ 主要是写 SQL(离线、实时开发平台)、需要理解业务,开发业务报表。
④ 需要业务能力,根据业务数据进行建模。
数据测试工程师
① 一般公司没有这个岗位,大概率又开发工程师进行自测。
② 测试数仓开发的指标逻辑、数据的准确性。
③ 测试业务埋点上报的准确性等。
数据分析师
不同的公司也有些不同的叫法:比如阿里的BI,美团的商分
① 临时取数:比如大型活动,某一次运营活动等数据查询分析。
② 日报、周报、月报、季报、年报、报表等等。
③ 专题分析,比如用户画像分析、ROI分析、风控分析、指标体系的搭建等
④ 市场分析,比如要做竞品分析、渠道分析、行业分析等等。
⑤ 编写数据分析报告。
数据挖掘师
① 用户基础研究,用户生命周期刻画(进入、成长、成熟、衰退、流失)、用户细分模型、用户价值模型、用户活跃度模型、用户意愿度识别模型、用户偏好识别模型、用户流失预警模型、用户激活模型等。
② 个性化推荐算法:基于协同过滤(USERBASE/ITEMBASE)的推荐,基于内容推荐,基于关联规则Apriot算法推荐,基于热门地区、季节、商品、人群的推荐等。
③ 风控模型:恶意注册模型、异地识别模型、欺诈识别模型、高危会员模型;电商领域(炒信模型、刷单模型、职业差评师模型、虚假发货模型、反欺诈模型);金融领域(欺诈评分模型、征信评分模型、催收模型、虚假账单识别模型等)。