热门标签 | HotTags
当前位置:  开发笔记 > 程序员 > 正文

你想知道什么是数据科学吗?阅读此内容以了解。

你想知道什么是数据科学吗?阅读此内容以了解。介绍在随机的一天,您只需进入您的Instagram,点击用户故事并收到一些关于您正在搜索的原声吉他的广告。之后,您的屏幕上会出现有关Ro

你想知道什么是数据科学吗?阅读此内容以了解。


介绍

在随机的一天,您只需进入您的 Instagram,点击用户故事并收到一些关于您正在搜索的原声吉他的广告。

之后,您的屏幕上会出现有关 Rock In Rio 门票的其他公告。


推荐算法怎么可以这么好??


仅仅是因为你留下了一些有用的信息吗?

是和不是。

当您使用社交网络时,公司可以访问您的信息,例如您用于搜索 Instagram 个人资料的文本、对视频的点赞、照片、您保存的照片等。

但是只有数据是不够的。 从这些数据中提取相关信息很重要 . 你需要使用科学来做到这一点,你需要数据科学。


那么,什么是数据科学和数据科学家?

数据科学是一个科学领域,它结合了数学统计、机器学习和人工智能来帮助公司的业务。

数据科学是在公司中应用数据科学的学科和数据科学家。事实上,数据科学有直接的商业应用,数据科学家在就业市场上的需求越来越大。在下图中,您可以观察到数据科学家的职位发布随着时间的推移而增长。

Source: https://www.hiringlab.org/2019/01/17/data-scientist-job-outlook/


什么是顶尖的数据科学技能?

很难总结数据科学技能,因为您可以在就业市场中找到不同的概念。但是,恕我直言,我认为我们可以在下面列出硬能力:



  • 统计分析与计算

  • 机器学习/深度学习

  • 数据处理(Pandas、spark 等)

  • 数据可视化

  • 数学与统计

  • 编程

看到数据科学技能的维恩图也很常见。下图是我喜欢的一张。 ( 资源 )


我们可以举例说明哪些数据科学应用?

除了推荐在广告中的应用,我们还可以提到其他常见的商业数据科学应用:



  • 乳腺癌肿瘤鉴定。由于人眼很难观察到,我们可以使用机器学习来实现这一点。

  • 通过送餐预测到达时间。优步为此使用机器学习。

  • 一家名为 WHOOP 的公司生产可跟踪运动员身体数据的可穿戴设备,例如静息心率、睡眠周期和呼吸频率。数据科学用于优化运动员的训练、何时需要训练以及何时需要休息。

  • 动视是一家大型游戏公司,负责《使命召唤》、《魔兽世界》和《守望先锋》等优秀游戏玩家。他们使用数据科学来改善在线游戏体验。

  • Airbnb 应用数据科学来提高其搜索引擎的质量。

  • 这些不可思议的艺术( 资源 ):


数据科学项目是如何发生的?数据科学项目的阶段是什么?

简而言之,将数据科学划分为一些阶段/步骤是很常见的。我们也可以说这些步骤是 项目生命周期 .下图来自 亚伯拉罕·摩西 的文章。我也用他的文章简单地回答了这个问题:)。

让我们在每个阶段深入一点:



  • 业务问题理解。

第一阶段是了解业务需求。你需要将他们想要解决的问题转化为数据科学问题。业务团队需要的是使用数据对组织产生积极影响。

让我们假设业务团队发现人们通过提供虚假信息(例如地址、姓名、年龄等)来击败信用系统。然后,您观察到您可以使用从软件系统收集的数据来检测某人是否要进行欺诈。这是文献中的一个常见问题,称为信用卡欺诈检测。一个非常经典的数据集可以在 Kaggle 上找到 这里 .



  • 数据采集

在你观察你想要解决信用卡欺诈检测之后。您注意到该公司尚未收集所有必要的数据。您阅读了文献并注意到拥有人口统计数据、贷款信息等很重要。然后,您可以使用一些好的技术,例如美丽的汤或刮擦来收集这些数据。



  • 数据清洗和处理

在一些数据科学课程中收到非常好的数据是很常见的。但在现实生活中,情况并非如此。

您可能会收到非常差的数据,有时问题无法像您想象的那样解决。或者您收到可接受的数据,您只需要对其进行清理和结构化。

当我说清理它时,我的意思是删除非信息性数据,例如空数据、负年龄、空地址等等。

这个阶段非常重要,因为如果我们将坏数据插入到我们的模型中,它就不会理解模式。 这就是为什么这是一个关键阶段,数据科学家可以在此步骤中将 80% 的时间花在数据科学项目上。



  • 探索性数据分析

整理完所有数据后,就该进行分析并获得洞察力了。勘探数据分析(EDA)中常见的分析是单变量分析、双变量分析、缺失值处理、异常值处理、变量变换、特征工程和相关性分析。

在我们的信用卡欺诈检测示例中,分析示例可以回答以下问题:

- 该位置是否会影响信用卡欺诈?

- 什么时候出现更多的欺诈行为?哪几个月?一周中的哪一天?

- 我们可以改进哪些功能以更深入地了解欺诈行为? (特征工程)。

创建良好的分析和功能以创建良好的预测器非常重要。



  • 模型构建和评估

这是我们选择使用某种评估技术训练的最佳模型的阶段。

当我们将数据集划分为训练集和测试集时,最常见的评估技术是保留。训练集用作模型(或模型集)来拟合数据并理解模式。测试数据是一个看不见的数据集,我们将使用它来观察模型在某些指标方面的表现。一个非常常用的评估指标是准确率和 f1-score。

在这个阶段也常见做模型超参数优化。例如,在决策树中,我们可以测试深度参数的不同值并观察 f1-score 度量的结果。



  • 传达模型结果

沟通是每个数据科学家都需要的一项非常重要的技能。因为,您首先需要沟通来判断数据科学项目是否可行,然后您需要为项目利益相关者创建模型结果的故事。

展示您的模型如何帮助解决业务问题非常重要。经理们对您的参数优化如何达到最佳评估指标不感兴趣。这就是为什么数据科学家需要良好的讲故事技巧。



  • 模型部署和维护

在这个阶段,并不是所有的数据科学家都这样做。有时,机器学习工程师会收到模型并将其设计用于生产。在信用卡欺诈检测的示例中,您可以想象当用户尝试在银行应用程序中注册时可以使用该模型。

所以,事情没那么简单。我们需要了解应用程序中使用了哪些技术。此外,我们需要创建一个应用程序接口 (API) 来创建应用程序和信用卡欺诈预测模型之间的通信。

为了使其更加复杂,有时需要重新训练模型。这就是为什么我们需要创建指标和监控。我们可以使用new relic、grafana、cloud watch等程序。


免责声明

数据科学家的定义还不是很简洁。甚至数据科学阶段也可能因公司和文献而异。

你喜欢它吗??请拍下这篇文章并关注我。

我推荐的书:

[


使用 Scikit-Learn、Keras 和 TensorFlow 进行机器学习:概念、工具和技术……


使用 Scikit-Learn、Keras 和 TensorFlow 进行机器学习:构建……的概念、工具和技术

amzn.to

](https://amzn.to/3KLBkqS)

[


实用自然语言处理:构建真实世界 NLP 系统的综合指南


实用自然语言处理:构建真实世界 NLP 系统的综合指南 [Vajjala, Sowmya…

amzn.to

](https://amzn.to/3TLYmlB)

[


数据科学的基本数学:用基本线性代数控制你的数据……


为数据科学购买基本数学:使用基本线性代数、概率和……控制您的数据

amzn.to

](https://amzn.to/3RwC5Gy)

[


商业数据科学:您需要了解的有关数据挖掘和数据分析思维的知识


购买商业数据科学:在 Amazon.com 上您需要了解的有关数据挖掘和数据分析思维的知识 ✓ 免费……

amzn.to

](https://amzn.to/3KNvmpN)

[


数据科学家实用统计:使用 R 和 Python 的 50 多个基本概念


数据科学家实用统计:使用 R 和 Python 的 50 多个基本概念:9781492072942:计算机科学……

amzn.to

](https://amzn.to/3BcKFov)

下一篇文章:

数据工程师、数据科学、数据分析师和机器学习工程师之间有什么区别?


参考:

https://towardsdatascience.com/five-stages-of-every-data-science-project-8a62885e46de

https://www.simplilearn.com/what-skills-do-i-need-to-become-a-data-scientist-article

https://builtin.com/data-science/data-science-applications-examples

https://www.hiringlab.org/2019/01/17/data-scientist-job-outlook/

https://www.ibm.com/cloud/learn/data-science-introduction

https://www.youtube.com/watch?v=RyHAEEr2nYM

https://www.youtube.com/watch?v=Zwvq-rlIHAw

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/15604/35590510



推荐阅读
  • 搜索大文件(20G左右) ... [详细]
  • 本文深入探讨了二叉搜索树(Binary Search Tree, BST)及其操作,包括查找、插入和删除节点。同时,文章还介绍了平衡二叉树(AVL树)的概念及调整方法,并详细讨论了如何判断两个序列是否构成相同的二叉搜索树。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 本文详细介绍了HTML中标签的使用方法和作用。通过具体示例,解释了如何利用标签为网页中的缩写和简称提供完整解释,并探讨了其在提高可读性和搜索引擎优化方面的优势。 ... [详细]
  • 本文介绍了如何在最新版本的Visual Studio Code中配置中文语言包,使用户能够更便捷地使用中文界面。文章详细描述了安装和配置步骤,并提供了相关补充说明。 ... [详细]
  • 在哈佛大学商学院举行的Cyberposium大会上,专家们深入探讨了开源软件的崛起及其对企业市场的影响。会议指出,开源软件不仅为企业提供了新的增长机会,还促进了软件质量的提升和创新。 ... [详细]
  • 新冠肺炎疫情期间,各大银行积极利用手机银行平台,满足客户在金融与生活多方面的需求。线上服务不仅激活了防疫相关的民生场景,还推动了银行通过互联网思维进行获客、引流与经营。本文探讨了银行在找房、买菜、打卡、教育等领域的创新举措。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 360SRC安全应急响应:从漏洞提交到修复的全过程
    本文详细介绍了360SRC平台处理一起关键安全事件的过程,涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例,展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]
  • 本章将深入探讨移动 UI 设计的核心原则,帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧,您将能够创建出既美观又实用的移动应用。 ... [详细]
  • 如何在PHPCMS V9中实现多站点功能并配置独立域名与动态URL
    本文介绍如何在PHPCMS V9中创建和管理多个站点,包括配置独立域名、设置动态URL,并确保各子站能够正常运行。我们将详细讲解从新建站点到最终配置路由的每一步骤。 ... [详细]
  • 本文详细解析了Python中的os和sys模块,介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]
  • 离线环境下的Python及其第三方库安装指南
    在项目开发中,有时会遇到电脑只能连接内网或完全无法联网的情况。本文将详细介绍如何在这种环境下安装Python及其所需的第三方库,确保开发工作的顺利进行。 ... [详细]
  • 掌握远程执行Linux脚本和命令的技巧
    本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令,帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释,让初学者也能轻松上手。 ... [详细]
author-avatar
0523wei
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有