热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

全栈数据,主要技术点

生命之源0.缘起本文仅仅只是列出一些知识点,拟做为内部技术分享的点,只是对『全栈数据』技术点有一个概要性的了解。列出的点,99%都是自己的经验,或接触、或了解、或实战的内容。本文对

《全栈数据,主要技术点》 生命之源

0. 缘起

本文仅仅只是列出一些知识点,拟做为内部技术分享的点,只是对『全栈数据』技术点有一个概要性的了解。

列出的点,99%都是自己的经验,或接触、或了解、或实战的内容。

本文对你不一定有多大的技术提升,因为很多点都需要扩展开来介绍,才更有意思。

如果有想法,请提更多的意见。

1. 平台技术

  1. 分布式计算平台 (Hadoop)
  • Google的论文:hdfs与map-reduce
  • Yahoo实现的开源版本
  • 三大平台:Cloudera/Hortonworks/DataStax
  1. 深度学习平台(GPU)
  • Nvidia: 显卡
  • Linux环境
  • cuda环境
  • intel-mkl
  • cudnn

重点:环境搭建,部分做数据分析的人,可能会卡在环境的搭建上,主要需要Linux技能。

2. 全栈基础

  1. SQL技术
  2. Linux及Shell, vim/find/grep/sed/awk/git
  3. 统计、概率基础
  4. 编程能力(以工程为导向)
  5. 大数据框架
  6. 数据处理&算法
  7. 笔记与文档(markdown)

重点:全面的熟悉数据科学中的知识点。

3. 分布式技术

  1. hadoop(hdfs&mr)
  2. Hive(sql)
  3. Spark(rdd,df,sql)
  4. Sqoop
  5. Hbase/Cassandra
  6. 采集与消息队列:Flume/Kafka/Storm
  7. 全文索引(solr, elasticsearch)

重点:熟悉处理海量数据的常用工具,存储与分析,每个工具的适用场景

4. 数据库技术

  1. MySQL
  2. Postgresql
  3. MongoDB
  4. Redis

重点:数据库是数据分析中最常用的依托,熟悉SQL语句,以及如果使用Python来进行数据处理。

5. 语言技术

  1. SQL语句(常用join语句)
  2. python
    python2与python3的问题
    库:numpy, pandas, scikit-learn,nltk, pyltp, pyspark、anaconda
  3. R
    学术界,快速建模
  4. Scala、java

重点:学习语言,是自动化处理数据和建模的必备工具,SQL必备,Python与R至少需要熟悉一种。要工程应用,Python是必备。

6. 数据挖掘

  1. 数据采集:rsync, api, MQ, 爬虫(scrapy)
  2. 数据清洗:SQL,Linux,py,R
  3. 特征工程:特征选择,特征变换
  4. 算法建模:各种框架与算法
  5. 模型评估:precision,recall,f1,mse
  6. 应用与可视化

重点:了解数据处理的一些常用方法,理解特征工程的方法,熟悉主流挖掘算法的基本过程,会调用相应的库来建模,理解算法评估的常用指标。

7. 机器学习

  1. 聚类、分类、回归
    kmeans, knn, logistic regression, linear regression, navie bayes, 决策树、随机森林、神经网络、Xgboost

  2. 自然语言处理
    CRF、分词、实体识别、语义分析,word2vec,深度学习(cnn,rnn)

  3. 个性推荐,用户画像

  4. 深度学习
    应用(非结构化):图片,语音,视频,自然语言处理
    算法:auto encoder, cnn, rnn, lstm
    框架:tf/keras/mxnet/caffe/pytorch

  5. 遗传算法:优化,ga, gp

重点:理解主流算法的应用场景及其主要参数,熟悉自然语言处理中一些基本的方法,理解深度学习的主要思想,熟悉一、两个深度学习框架,能使用迁移学习做一些图片分类的任务。

8. Web与可视化

  1. Excel, matplotlib, seaborn
  2. Django/Flask,JS/Html5/css3(Web开发)
  3. superset(druid, mysql, postgresql, 简单易用的数据可视化界面)
  4. zeppelin(支持分布式环境的Web笔记)
  5. beakernotebook(ipython、jupyter,支持多种语言的Web笔记)
  6. Orange3(图形化的Web挖掘工具)
  7. airflow(Data pipeline监控)
  8. DataScienceStudio(基于Web的数据分析、建模工具)

重点:数据可视化工具,数据可视化挖掘工具,交互式笔记工具,事半功倍的工具,数据分析入门的好工具,个人珍藏收集。

9. Spark全栈

  1. RDD/DataFrame
  2. ML/MLLib
  3. SQL
  4. Streaming
  5. GraphX(PageRank)
  6. spark/pyspark/sparkR

重点:当今世界最流行、不可多得的、分布式的,全栈数据处理、分析、挖掘环境。

10. H2O框架

  1. h2o-flow(基于Web的自动化建模环境)
  2. 算法(drf, gbdt, word2vec,glrm)
  3. sparkling water(结合Spark的优势)
  4. deepwater(深度学习环境)
  5. steam(建模与部署一体化)

重点:如生命离不开水一般,简单、优雅的数据挖掘、深度学习环境。高效的算法执行速度,高精度的算法产出。

关注微信公众号『全栈数据』,回复:qzsjzsd,获取pdf版本下载地址与密码。

《全栈数据,主要技术点》 全栈数据 公众号


推荐阅读
  • 云计算的优势与应用场景
    本文详细探讨了云计算为企业和个人带来的多种优势,包括成本节约、安全性提升、灵活性增强等。同时介绍了云计算的五大核心特点,并结合实际案例进行分析。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • dotnet 通过 Elmish.WPF 使用 F# 编写 WPF 应用
    本文来安利大家一个有趣而且强大的库,通过F#和C#混合编程编写WPF应用,可以在WPF中使用到F#强大的数据处理能力在GitHub上完全开源Elmis ... [详细]
  • HBase运维工具全解析
    本文深入探讨了HBase常用的运维工具,详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说,这些工具是日常管理和故障排查的重要手段。 ... [详细]
  • 本文探讨了如何在日常工作中通过优化效率和深入研究核心技术,将技术和知识转化为实际收益。文章结合个人经验,分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法,帮助读者更好地实现技术变现。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • Hadoop发行版本选择指南:技术解析与应用实践
    本文详细介绍了Hadoop的不同发行版本及其特点,帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]
  • 本文详细探讨了 org.apache.hadoop.ha.HAServiceTarget 类中的 checkFencingConfigured 方法,包括其功能、应用场景及代码示例。通过实际代码片段,帮助开发者更好地理解和使用该方法。 ... [详细]
  • 深入解析Hadoop的核心组件与工作原理
    本文详细介绍了Hadoop的三大核心组件:分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制,帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]
  • MapReduce原理是怎么剖析的
    这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1 ... [详细]
  • 深入解析:主流开源分布式文件系统综述
    本文详细探讨了几款主流的开源分布式文件系统,包括HDFS、MooseFS、Lustre、GlusterFS和CephFS,重点分析了它们的元数据管理和数据一致性机制,旨在为读者提供深入的技术见解。 ... [详细]
  • 本文由瀚高PG实验室撰写,详细介绍了如何在PostgreSQL中创建、管理和删除模式。文章涵盖了创建模式的基本命令、public模式的特性、权限设置以及通过角色对象简化操作的方法。 ... [详细]
  • 深入解析Spark核心架构与部署策略
    本文详细探讨了Spark的核心架构,包括其运行机制、任务调度和内存管理等方面,以及四种主要的部署模式:Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文,读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]
  • 58同城的Elasticsearch应用与平台构建实践
    本文由58同城高级架构师于伯伟分享,由陈树昌编辑整理,内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用,特别是在58同城的实施案例,包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]
  • 构建Snowflake中的近实时数据摄取管道
    探索如何在Snowflake中构建高效的近实时数据摄取管道,利用其内外表特性及Snowpipe服务,实现数据的快速、稳定加载。 ... [详细]
author-avatar
多米音乐_34084632
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有