热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

数据整理太繁琐?MIT发布能化零为整的分析系统

2016年美国CrowdFlower公司从业内80位数据科学家那里得到的调查结果显示,他们平均花费在数据收集和整理上的时间占到整个数据分析过程的80%,而只有余下20%的时间才是真

数据整理太繁琐?MIT发布能化零为整的分析系统

2016年美国CrowdFlower公司从业内80位数据科学家那里得到的调查结果显示,他们平均花费在数据收集和整理上的时间占到整个数据分析过程的80%,而只有余下20%的时间才是真正用来分析数据的。

这就是我们通常所说的数据分析过程,其实有一大部分时间都用在了前期的数据的收集和整理上。那么收集和整理又为什么如此耗时呢?

随着数字化和信息化的深入,目前的可用数据并非集中于一点,而是广泛分布在各种文件、电子表格、分布式数据库、数据湖和其他软件系统之中,数据科学研究者需要从各种渠道获取这些数据,过滤其中的有效部分,再将数据组织成便于处理的格式,这一系列的过程都需要耗费大量的精力和时间。

为此,一支国际化的科研团队近期发布了一个全新的大数据分析系统——Data Civilizer,试图解决这一难题。该系统免去了一定程度的整理过程,可以自动识别不同数据表格之间的内在联系,并允许用户以类似查询数据库的方式直接操作这些零散的数据表格。更重要的是,用户还可以将这些查询结果重新组织成一个有序的新数据库,以便进行后续的分析和处理。

这里之所以称Civilizer系统的研发团队是一支国际化的团队,是因为其主要成员并非来自同一个实验室或者同一所高校,甚至并非同一个国家。例如:来自CSAIL的博士后Dong Deng和Raul Castro Fernandez(他们同时也是论文的主要作者),上文提到的Sam Madden教授,以及其他6位来自柏林技术大学、南洋理工大学、滑铁卢大学和卡塔尔计算机研究所的科研人员。另外值得一提的是,尽管并没有参与论文的撰写,但来自麻省理工学院电气工程和计算机科学系的副教授、2014图灵奖获得者Michael Stonebraker同样也为这项研究做出了贡献。

麻省理工学院电气工程和计算机科学教授,CSAIL大数据教研室主任Sam Madden表示:“当前,由于有成千上万的数据被分散在各种软件系统中,因此要组织一个庞大的数据集非常困难。Civilizer系统可以帮助数据科学家快速找到包含相关信息的数据表格,并将这些表格集合在一起,创建一个完整的数据库,从而大大提高了大数据分析的效率。”

逐列分析

Civilizer系统假定其处理的所有数据都按照表格的形式组织。但正如Sam Madden所说,由于将数据转换为表格的技术在大数据领域并不是什么高新的技术,因此这一点并非新研究的重点。类似的,虽然Civilizer的系统原型可以从各种不同类型的文件中提取表格数据,但配合现有程序对数据进行处理却并非研究者的首要任务。“这部分只是工程上的工作,而并非科研上的。”Sam Madden教授表示。

Civilizer系统的核心优势在于逐列分析所有的数据表格,然后得到每一列的统计概要。对于数值数据,概要中可以包括该数值出现的频率、数值的范围、数值的基数、以及每列包含的不同数值的个数等。对于文本数据,概要将包含每列中出现频率最高的词汇,以及不同词汇的个数统计。此外,Civilizer系统还将对每个出现的词汇和包含这些词汇的表格生成一个索引目录。

此后,系统将对比所有列的统计概要,根据概要内容识别具有高度相似性的列(例如具有相似的数值范围、相似的词汇集合的列),并将这些单独的列两两一组,组成一个一个的“列对”。Civilizer会为每个列对分配彼此相似的权值,并在权值的基础上生成一个能够反映列与列之前的连接关系、表格与表格之间的连接关系的映射图。

自动识别相关性

这里可以通过一个例子来说明Civilizer系统的查询能力:假设一家制药公司有一些包含药物品牌名的表格,一些包含药物化学成分的表格,以及一些包含药物内部代号的表格。我们不妨称这些表格为1类,2类和3类。现在假定1和2从未出现在同一个表格中,但至少有一份表格反映1和3的对应关系,以及反映2和3的对应关系。那么当用户利用Civilizer对所有这些表格展开分析时,对1类的查询结果也可以包含2类中的信息。

需要指出的是,Civilizer系统的识别结果也有可能是错误的。但系统允许用户丢弃不恰当的查询结果,保留有效的数据。数据被裁减之后,用户还可以将结果保存为一个独立的数据文件,方便后续的使用。

Merck制药公司的高级信息分析师Iain Wallace表示:“Civilizer的技术非常有趣,它或许能帮助数据科学家解决由于可用数据越来越多而引发的一个重要问题:究竟哪些数据集应该被纳入分析之列。而且组织机构越庞大,这个问题就越严重。”

Sam Madden教授表示:“目前我们正在探索如何将Civilizer系统作为各种化学和生物学数据集之上的协调层。因为这些数据集通常需要将化合物、疾病和搜索目标联系在一起。一个典型例子就是当用户从一个化合物表格中找到某种特定的化合物后,常常还需要根据这种化合物在其他表格中搜索更多的附加信息。Civilizer系统允许用户对所有列数据进行全文搜索,并自动识别出相关列。通过Civilizer,我们可以方便地添加额外数据源,并快速更新之前的分析结果。”

civilize意为使之文明、使之开化,MIT将新系统命名为Data Civilizer,意思很明显,是希望通过这个系统让大数据处理变得更简单方便,为开发者简化数据的预处理过程,把更多精力和时间放在真正的数据分析过程中。我们希望以MIT的这项最新研究成果为起点,未来可以出现更多类似的数据处理工具,推动数据科学更快的向前发展。雷锋网雷锋网

来源:mit,雷锋网(公众号:雷锋网)编译

雷锋网版权文章,未经授权禁止转载。详情见。


数据整理太繁琐?MIT发布能化零为整的分析系统


推荐阅读
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • 本文详细分析了JSP(JavaServer Pages)技术的主要优点和缺点,帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术,广泛应用于Web开发中。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • CentOS7源码编译安装MySQL5.6
    2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网:https:www.cmake.org如此时最新 ... [详细]
  • 深入理解 SQL 视图、存储过程与事务
    本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式,存储过程则封装了复杂的SQL逻辑,而事务确保了数据库操作的完整性和一致性。 ... [详细]
  • 数据库内核开发入门 | 搭建研发环境的初步指南
    本课程将带你从零开始,逐步掌握数据库内核开发的基础知识和实践技能,重点介绍如何搭建OceanBase的开发环境。 ... [详细]
  • Netflix利用Druid实现高效实时数据分析
    本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid,实现了高效的数据采集、处理和实时分析,从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践,并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]
  • 网络出版服务许可证申请指南
    本文详细介绍了网络出版服务许可证的办理条件、适用企业范围及具体流程,帮助相关企业和个人了解并顺利完成许可证的申请。文章由专业机构提供,旨在为读者解答在互联网出版领域遇到的技术和合规问题。 ... [详细]
  • 2017年苹果全球开发者大会即将开幕,预计iOS将迎来重大更新,同时Siri智能音箱有望首次亮相,AI技术成为大会焦点。 ... [详细]
  • 本文总结了2018年的关键成就,包括职业变动、购车、考取驾照等重要事件,并分享了读书、工作、家庭和朋友方面的感悟。同时,展望2019年,制定了健康、软实力提升和技术学习的具体目标。 ... [详细]
  • 本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用,涵盖基础指令、镜像构建与发布流程,并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]
  • 本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程,该课程广受好评,被誉为Python学习的最佳选择。通过生动有趣的教学方式,帮助初学者轻松掌握编程基础。 ... [详细]
  • 本文详细介绍了Akka中的BackoffSupervisor机制,探讨其在处理持久化失败和Actor重启时的应用。通过具体示例,展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]
  • 使用C#开发SQL Server存储过程的指南
    本文介绍如何利用C#在SQL Server中创建存储过程,涵盖背景、步骤和应用场景,旨在帮助开发者更好地理解和应用这一技术。 ... [详细]
author-avatar
ji_yi
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有