译见：大数据科学家，听起来好听，干的是“搬砖”的活儿

作者：--cathrine-- | 来源：互联网 | 2014-08-21 23:17

事实上，数据科学家们百分之五十到八十的时间都在埋头整理无序的数据，直到它们能被用于挖掘，即所谓的“DataMining”。手工劳动在数据准备中仍是必不可少的。

（原文来自 The New York Times，虎嗅实习生苇岑编译）

“大数据”这个流行词包含了各类丰富的数码数据，从网络、感应器，到手机、电脑。用智能软件来挖掘这些数据，可以得到许多发现。它使得各领域的数据导向决策过程成为可能。这也是数据科学家成为热门职业的原因。但你知道数据科学家平时都做些什么吗？

整理数据

事实上，数据科学家们百分之五十到八十的时间都在埋头整理无序的数据，直到它们能被用于挖掘，即所谓的“Data Mining”。这些精细而繁琐的工作，完全不像想象中那么信手拈来。这是因为我们正身处于大数据的现代蛮荒之中，数据从收集到可用，还需要某种程度的开垦。

Timothy Weaver是德尔蒙食品公司的CIO（信息主管），他指出了大数据的“数据噪音”（data wrangling）中存在的“冰山效应”（iceberg）。人们只看到结果，却没有看到结果背后的大量劳动。

不过，这也是一个问题与机会共生的问题。一些创业公司正在尝试通过开发自动收集、清理和管理数据的软件，来突破大数据的这种瓶颈。

在未来，会有越来越多的数据来源能够用于揭示一家公司的运营情况。比如在食品产业，能够获取的数据有产量、产地和运输、天气、零售数据和社交网络评论。我们测量的是这些数据在情感和需求上的变化信号。结果是，我们能够比以往更加具象化地看到运营的每一个步骤，能够开始量身定制生产计划和存货。

然而在集合不同类别数据的过程中，也会产生问题。传感器、文件、网络和传统数据库的数据存在不同的格式，必须把它们清理并转换成统一格式，才能加入算法。

人类语言

数据格式只是一个问题，另一个挑战是人类语言的模糊性。Iodine是一家健康创业公司，它为顾客提供药品的副作用和交互作用信息。但对于相同的副作用，食品药品管理局使用的术语往往有细微差别。“困倦”，“嗜睡”和“瞌睡”同时使用。人类能够识别这些同义词，但软件算法必须通过编程才能获得这种解读能力。这种蛋疼的工作在数据项目中需要不断地重复。

数据专家试图自动化这个过程中的每一步。“然而操作上，由于数据的复杂性，你得当好长一段时间的数据看门人，才能得到迷人的结果。” 数据科学家兼Iodine创始人Matt Mohebbi说。

数据软件能够做到的不仅仅是节约科学家们的时间，它同时也可能成为大数据计算普及化的功臣。

历史规律表明，一项新技术产生之初只被少数精英所掌握。然而随着时间推移，技术进步和投资增加，工具越来越强大，相关经济发展，商业运作开始适应，技术最终融入主流。在大数据时代，这条定律依然有用。

硅谷数据科学的CTO，John Akred看到了现代数据世界发展与技术发展的相似之处。他说，“我们见证着革命的起源，它致力于使更大的人群获得解决数据问题的能力。”

加州帕罗奥图市的一家初创企业ClearStory Data致力于开发识别、集合各种数据资源并通过表格和图表、数据地图来可视化结果的软件。它的目标就是通过软件来开发更大的用户市场。

一个可视化报告通常包括六到八个数据源。比如一个提供给零售商的报告，可能包括扫描的销售点数据、天气预报、网站浏览量、竞争对手的定价数据、智能手机软件访问量和停车场车流量的视频监控。而这些数据如果手动整理，请多少人手也不一定够。

算法仍旧没有替代手工劳动

尽管如此，数据科学家们强调，手工劳动在数据准备中仍是必不可少的。“开始的时候你为了一个特定目标准备数据，但没过多久就发现了一些新东西，你的目标也会随之改变。”哥伦比亚新闻研究生院的一位数据科学家Cathy O’Neil说。

但毫无疑问的是，在减轻数据统计压力方面，科学家们需要好好磨一磨他们的刀剑了。毕竟，工欲善其事，必先利其器嘛。

算法

推荐阅读

机器人
C语言入门精选教程与书籍推荐

本文精选了几本适合不同水平学习者的C语言书籍，从基础入门到进阶提高，帮助读者全面掌握C语言的核心知识和技术。 ... [详细]

蜡笔小新 2024-12-15 19:35:11
算法
探讨PHP自定义MD5加密函数的实现问题

本文分析了一个基于ASP代码改编的PHP MD5加密函数，指出其存在的问题，并提供了解决方案。通过对比ASP和PHP在处理相同数据时的不同表现，探讨了两种语言在实现MD5算法上的细微差别。 ... [详细]

蜡笔小新 2024-12-15 18:00:49
算法
优化使用STL迭代器

本文探讨了STL迭代器的最佳实践，包括iterator与const_iterator、reverse_iterator及其const版本之间的关系，以及如何高效地转换和使用这些迭代器类型。 ... [详细]

蜡笔小新 2024-12-15 13:07:13
算法
理解Git钩子的工作机制

Git支持通过自定义钩子来扩展其功能，这些钩子根据触发条件的不同，可以分为客户端和服务器端两种类型。客户端钩子通常与本地操作相关联，如提交代码或合并分支；而服务器端钩子则与远程仓库的交互有关。 ... [详细]

蜡笔小新 2024-12-15 12:54:40
算法
400string(99) php,PHP: 字符串Manual

addcslashes—以C语言风格使用反斜线转义字符串中的字符addslashes—使用反斜线引用字符串bin2hex—函数把包含数据的二进制字符串转换为十六进制值chop—rt ... [详细]

蜡笔小新 2024-12-15 12:31:43
算法
使用Python爬虫技术从网页中提取图片链接的方法与示例

本篇文章将详细介绍如何通过Python编程语言来实现从指定网页上抓取图片链接的功能，并提供了一个实用的代码示例。 ... [详细]

蜡笔小新 2024-12-15 11:58:32
算法
百度质量部实习生面试心得分享

随着暑假临近，为了充实假期生活并提升个人技能，我积极寻找实习机会。经过多轮筛选与准备，有幸参与了百度质量部的实习生面试。本文将分享此次面试经历及准备过程中的一些体会。 ... [详细]

蜡笔小新 2024-12-15 10:58:47
算法
C#基础语法快速入门

本文详细介绍了C#中的基本选择结构（如if、if-else、if-else-if及嵌套if）、switch结构、数组与循环控制结构（包括while、do-while、for和foreach循环）以及跳转语句（break和continue）。此外，还简要探讨了二重循环的应用和冒泡排序算法。 ... [详细]

蜡笔小新 2024-12-15 09:35:43
算法
运用桥梁模式重构螺旋矩阵算法

近期探讨了‘内部螺旋矩阵算法’的实现细节，并深入分析了面向对象编程中的可扩展性问题。基于这些讨论，本文通过引入桥梁设计模式对原有代码进行了优化与重构，以增强代码的灵活性和可维护性。 ... [详细]

蜡笔小新 2024-12-14 21:37:27
算法
MySQL联结详解：自联结、自然联结、内外部联结及交叉联结

本文详细介绍了MySQL中的各种联结类型，包括自联结、自然联结、内部联结（等值联结）、外部联结（左联结、右联结、全外联结）以及交叉联结。每种联结方式都有其特定的应用场景和语法特点，了解这些可以帮助开发者更高效地编写SQL查询。 ... [详细]

蜡笔小新 2024-12-14 20:27:23
人工智能
基于直推式学习的异质人脸图像合成技术

本文探讨了利用直推式学习与贝叶斯推理相结合的方法，用于提升异质人脸图像合成的质量。通过将所有样本（包括训练和测试样本）纳入学习过程，旨在减少测试样本的风险误差，从而改善最终的图像合成效果。 ... [详细]

蜡笔小新 2024-12-14 19:27:26
算法
利用 Jest 和 Supertest 实现接口测试的全面指南

本文深入探讨了如何使用 Jest 和 Supertest 进行接口测试，通过实际案例详细解析了测试环境的搭建、测试用例的编写以及异步测试的处理方法。 ... [详细]

蜡笔小新 2024-12-14 19:04:38
算法
深入探讨ASP.NET中的OAuth、JWT与OpenID Connect

本文作为前文关于OAuth2.0和使用.NET实现OAuth身份验证的补充，详细阐述了OAuth与JWT及OpenID Connect之间的关系和差异，旨在提供更全面的理解。 ... [详细]

蜡笔小新 2024-12-14 18:34:43
算法
在Ubuntu上配置DELL Latitude笔记本触摸板快捷键的方法

本文介绍如何在Ubuntu操作系统中为DELL Latitude系列笔记本配置触摸板的自定义快捷键。此方法不仅适用于DELL品牌，其他品牌的笔记本也可能适用。通过编写简单的脚本，用户可以实现触摸板的快速开关。 ... [详细]

蜡笔小新 2024-12-14 18:00:02
算法
经典查找算法详解：线性、二分、BST、哈希、索引

本文概述了五种常用的查找算法：线性查找、二分查找、二叉搜索树查找、哈希查找和索引查找。每种方法都有其适用场景和性能特点。 ... [详细]

蜡笔小新 2024-12-14 17:18:28

--cathrine--

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章