热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开源点云数据处理开源_数据科学与开源

开源点云数据处理开源数据科学的目标是从数据集中提取有用的信息。长期以来,公司已将数据的价值视为业务资产。但是,现在可用的海量数据需要采用新方法来理解数据

开源点云数据处理 开源

数据科学的目标是从数据集中提取有用的信息。 长期以来,公司已将数据的价值视为业务资产。 但是,现在可用的海量数据需要采用新方法来理解数据并进行有效管理。 越来越多的工程师和科学家干部正在构建将数据科学应用于海量数据的系统。 本文向您介绍了数据科学领域以及适用于当今数据科学家的开源工具。

数据科学与数据科学家

数据科学始于数据收集。 收集的候选人可以是开放数据或来自内部业务流程的数据(例如,网站统计信息)。 接下来是改进 :将数据简化为可以回答特定问题的有用信息的创造性过程。 通常,问题定义了信息提取的方法。 在收集和优化步骤中还有其他重要方面,例如数据清理(或预处理 )和数据可视化。

您还可以将数据科学视为业务流程。 O'Reilly的Mike Loukides提出了一个令人信服的案例,即数据科学不仅是将数据转换成信息,而且还转换成产品 (请参阅参考资料 )。 从这个角度来看,该领域是当今的淘金热-竞争中寻找信息山中有价值的矿块。

数据淘金热中的探矿者被称为数据科学家。 随着企业认识到数据的价值,对有才华的多学科工程师和科学家的需求正在增长。 数据科学家必须具备计算机科学,数学和统计方面的技能。 理想情况下,他们还具有领域知识,即对数据源(医学,金融,网络和其他领域)的理解。 图1将数据科学说明为计算机科学,数学和统计学以及领域知识的交集:

图1.数据科学家的关键学科
该图显示了关键数据科学学科的交叉点

借助这种完整的技能,数据科学家可以将领域知识和数学转化为应用程序(来自计算机科学领域),该应用程序可以挖掘数据并将其精炼为信息。 关键是跨学科的重点(也可以包括机器学习和信息检索等领域)。

如今,具有大数据分析经验的工程师和科学家的需求量很大。 麦肯锡公司(McKinsey&Company)预测,到2018年,将出现适合数据科学家职位的人员短缺(请参阅参考资料 )。 数据科学中的思想和方法在许多其他学科中也很有用。 即使您不希望成为数据科学家,数据科学技能也可以成为您的工程工具箱的重要补充。

使用数据科学的地方

像云计算一样,数据科学正在Swift获得关注和采用。 根据Google搜索解析(以前称为Google趋势),在撰写本文之前的一年中,对数据科学的兴趣大约翻了一番。 Google搜索解析本身就是行动中的数据科学的一个例子。 图2显示,在2011年夏季至2012年Spring之间, 数据科学作为Web搜索术语的频率急剧增加:

图2.有关数据科学的Google Insights for Search数据
该图显示了2011年夏季和2012年Spring对数据科学感兴趣的Google搜索解析数据

数据科学正在Swift成为在线收集数据的组织(无论是基于爬网的集合还是基于用户行为(例如点击)的内部集合)中的主要内容。 诸如Google,Amazon,Facebook和LinkedIn等主要网站都拥有自己的数据科学团队来使用其可用数据(请参阅参考资料 )。

Google对PageRank算法的开发是数据科学的早期例子。 Google会爬网,并为每个页面上的超链接分配一个数字权重,以衡量这些链接的相对重要性。 (PageRank的详细信息仅在Google内部是已知的。)该算法用作根据搜索词对Web内容进行排名的方法。

大型在线零售商(例如Amazon和Walmart)使用数据科学来尝试增加销售额。 它们根据用户的产品搜索和过往购买为单个用户生成推荐。

LinkedIn是一个专业的网络站点,它维护着与人及其职业,兴趣和联系有关的大量数据。 庞大的数据网络产生了各种推荐引擎(针对个人,团体和公司)和项目,这些推荐引擎和项目使用更深层次的数据在LinkedIn上生产新产品。

该公司对网络资产的数据科学提出了一个新颖的例子。 从表面上看,bitly是一项服务,使用户可以将任何URL缩短到最大19个字符的URL(该URL永久存储在bitit的数据中心中)。 对缩短的URL的引用会从位重定向到原始URL。 然后,一点点就能看到人们缩短了哪些URL ,以及其他用户单击了哪些URL。 这种策略提供了巨大的数据量,比特人(及其首席科学家希拉里·梅森)可以用来生成大量有关浏览习惯的统计数据。 进行了短暂注册的用户可以查看他们缩短的URL的单击时间,单击哪个引荐来源(电子邮件客户端,Twitter或另一个URL)以及来自哪个国家/地区。 企业还可以使用bitly跟踪一组内容的用户行为。

数据科学的开源工具

正如计算机编程不限于单一语言或开发环境一样,数据科学也不与单一工具或工具套件相关联。 开源领域中各种各样的工具可以促进数据科学的发展。 它们包括用于对大型数据集进行数字处理的工具,以及有助于复杂处理开发的可视化和原型设计工具。 表1列出了面向数据科学家的著名开源工具,并定义了它们的作用:

表1.数据科学的开源工具
工具 描述
阿帕奇Hadoop 大数据处理框架
阿帕奇·马哈特(Apache Mahout) Hadoop的可扩展机器学习算法
火花 数据分析的集群计算框架
统计计算的R项目 可访问的数据操作和图形
Python,Ruby,Perl 原型和生产脚本语言
科学 用于科学计算的Python软件包
scikit学习 用于机器学习的Python包
轴突 交互式数据可视化

表1中的列表并不详尽,而是代表了数据科学家工具箱中的一些核心元素。 开源域还充满了高度专业化和特定于域的库和工具(例如,用于交互式地图可视化和文本分析的实用程序)。

Hadoop,Mahout和Spark

互联网为收集有关用户行为和习惯的大量数据创造了机会。 Apache Hadoop是用于处理海量数据集的首要框架。 Hadoop对数据科学非常重要,因为它为分布式数据处理提供了可扩展的框架。 并非所有数据科学问题都需要大数据处理,但是当您的问题涉及Internet规模的数据时,Hadoop是理想的选择。 Google MapReduce框架对PageRank算法的实现是大数据框架上数据科学的早期示例。 (Hadoop是MapReduce的实现。)Apache Pig可以使Hadoop更加易于访问,引入了一种自动构建MapReduce应用程序的查询语言(请参阅参考资料 )。

Apache Mahout是Hadoop平台上的可伸缩机器学习算法的实现(请参阅参考资料 )。 Mahout包括群集算法和基于批处理的协作过滤算法(用于实施推荐系统)的可伸缩实现。

对于大型数据集,另一个值得注意的解决方案是Spark框架(请参阅参考资料 )。 Spark包括优化,例如带有容错抽象的内存集群计算。

R项目

数据挖掘器工具包中经常找到的工具是称为R的编程语言和开发环境。 R专注于统计计算和图形。 R相对简单易学,并且广泛用于数据分析领域。 R是开源和免费的,是一种拥有大量用户的流行语言。

R是一种多范例语言,支持面向对象,功能,过程和命令式编程风格。 该语言通过命令行界面进行解释,还包括广泛的生产级图形功能。 开箱即用提供静态图形。 使用其他软件包,可以实现动态图和交互式图。 图3显示了使用R生成的示例图:

图3.使用R的示例3D正弦图
该图像的屏幕截图显示了用R生成的3D正弦图示例

R编程语言是用C和Fortran开发的。 R中的许多内部标准函数都是用R本身编写的。 R支持混合语言编程,从而允许从诸如C和Java™的语言访问R对象。 您可以使用包轻松扩展R的功能,这些包可以用R,C,Java和Fortran编程语言开发。

脚本语言

诸如Python,Ruby和Perl之类的多范式脚本语言为应用程序开发和部署提供了一个专业平台。 它们是原型和测试新想法的理想选择。 这些语言还支持各种数据存储和通信格式,例如XML和Javascript对象表示法(JSON),以及用于科学计算和机器学习的各种开源库。 Python是该领域的明显领导者,这可能是因为,它是除计算机科学以外的其他背景上最容易学习的用户。 Python知识通常是数据科学家工作的必要条件。

SciPy和scikit学习

SciPy软件包将Python扩展到科学编程领域。 它支持各种功能,包括并行编程工具,集成,常微分方程求解器,甚至是将C / C ++代码包含在Python代码中的扩展(称为Weave)。

与SciPy相关的是scikit-learn,它是用于基于Python的机器学习的软件包。 Scikit-learn在机器学习框架下包括许多算法,用于监督学习(支持矢量机,朴素贝叶斯),无监督学习(聚类算法)以及其他用于数据集操纵的算法。

这两个软件包都扩展了Python的功能,可用作数据科学平台。

Axiis交互式数据可视化

许多开源解决方案仅专注于可视化。 一个特别有趣的示例是Axiis框架,该框架为丰富而丰富多彩的可视化提供了简洁的标记语言。 图4显示了一个示例:

图4.使用Axiis框架的楔形栈图可视化
使用Axiis框架创建的楔形堆栈图形可视化的屏幕截图

图4是BrightPoint Consulting董事总经理Tom Gonzalez的交互式示例的静态版本。 请参阅相关信息的链接,交互版本。

更进一步

数据科学家的作用建立在知识和经验的坚实平台上。 但是工具也是数据科学领域的重要方面。 在新兴学科中,开源社区通常在建立以前不存在的软件方面处于领先地位。 数据科学领域也不例外。 数据科学是相对较新的,因此几乎可以肯定会有更多的新工具,数据协议和数据格式在起作用。 但是在数据科学中,就像在许多其他学科中一样,开源解决方案已经在广度和深度方面取得领先。


翻译自: https://www.ibm.com/developerworks/opensource/library/os-datascience/index.html

开源点云数据处理 开源



推荐阅读
author-avatar
mobiledu2502908907
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有