热门标签 | HotTags
当前位置:  开发笔记 > IOS > 正文

Oxdata研发H2O,打造大数据新蓝图

当你打开该网页时,相信你的第一反应肯定是怀疑的,一个小小的程序员怎么可能成为数据库专家,但是内心也有一点期盼的成分存在,就像买彩票一样,明知道中500万的概率几乎为零,可是还是会去买。前DataStax工程师,Platfora的联合创始人,SriSatishAmbati描

当你打开该网页时,相信你的第一反应肯定是怀疑的,一个小小的程序员怎么可能成为数据库专家,但是内心也有一点期盼的成分存在,就像买彩票一样,明知道中500万的概率几乎为零,可是还是会去买。前DataStax工程师,Platfora的联合创始人,SriSatish Ambati描

当你打开该网页时,相信你的第一反应肯定是怀疑的,一个小小的程序员怎么可能成为数据库专家,但是内心也有一点期盼的成分存在,就像买彩票一样,明知道中500万的概率几乎为零,可是还是会去买。前DataStax工程师,Platfora的联合创始人,SriSatish Ambati描绘了一幅宏伟的蓝图,让大数据从晦涩难懂的“黑魔法”变成像小孩子的“过家家”游戏那样简单,无论成功与否, Ambati勇气可嘉,态度值得所有的程序员学习。乔布斯不正是把一个个不可能变成了现实吗?

不过令人遗憾的是,0xdata的数据库产品还在襁褓之中,但是0xdata对做大规模先进的统计分析问题的能力有强大的自信:建立在HDFS上的规模化处理,使用广为人知的R编程语言,把一切都隐藏在一个简单的界面之下。

大数据的趋势正在悄然发生改变,把大数据从晦涩难懂的“黑魔法”变成”小儿科“,似乎已经不再是一个难以企及的梦想!0xdata正是推动这项技术发展的最新公司之一。自启动以来,“hexadata”就凝聚了前DataStax工程师,Platfora的联合创始人,SriSatish Ambati的心血结晶,现在它试图融入Hadoop、R语言和谷歌的BigQuery,准备打造“终极版”的统计分析工具。

Oxdata的旗舰产品,被称之为“H2O”,不错,就是“水”的意思,它的核心是一个统计分析引擎,它使用Hadoop的分布式文件系统(HDFS)作为其存储平台,但是它们的最终目标是像谷歌的BigQuery一样简单。H2O的用户交互是通过一个简单的网络搜索和标准R统计分析语法。另外,用户还可以在Microsoft Excel或RStudio的集成开发环境中使用REST API调用H2O。

Ambati表示,规模化的基础数据和运行高级分析的复杂性都是需要被隐藏的细节。这和Platfora有相同的理论基础,但是该公司的联合创始人Ambati和前任DataStax的同事Ben Werther却与Platfora的做法截然不同。Platfora试图通过建立基于Hadoop的下一代用户体验来破坏现有的数据仓库市场,然而0xdata只是试图改变传统的统计软件的用户交互方式而已。

数据分析产品的负责人Ambati很经典的一句话:“谁都没有吹牛的权利。但是如果不这样做,未来将寸步难行。”让人不禁想到这两天京东与苏宁的家电大战,只能硬着头皮前进,不能后退,因为后退即是灭亡!

Oxdata把数据处理的速度当做一个重点处理——如何快速处理数据,如何让用户迅速得到响应。谷歌搜索让我们有了可以陆续追问的思想,Ambati认为,数据分析也应该有同样的经历。这就是为什么H2O在分析过程中的每一步都提供了近似的结果,而不是等待整个工作运行以后得出计算精确的结果,用户可以得到一个总体的解决思路,即使完全超出预期范围,无论是清理工作还是重新开始新工作都会变得更快。

想要在公众面前得到一个机会,实现H2O“壮志雄心”的诺言,还有很长的一段路要走。但是Ambati表示,虽然产品仅仅是经历了短短4个月的开发,还没有一套的完整的算法,但是相信几个月以后就能初见分晓。他团队的八位工程师,已经建立了很多很酷的东西,只是现在还需要一个完善的过程,最终才能把代码变成实际的产品。尽管困难是如此之大,他们毅然决定继续数据的系统化处理,就是从那一刻起,Ambati和他的团队也发现了很多的乐趣,“我们与基础架构生死相随,不离不弃”Ambati调侃道,“而且我们一大帮人花了很多的时间来学习数学,日子就像回到计算机科学专业学生的那个时代”。(编译/王鹏,审校/包研)

How 0xdata wants to help everyone become data scientists

后记:Oxdata的H2O目前虽然还是“镜花水月,空中楼阁”,但是Ambati和他的团队的精神确实让人肃然起敬,中国有句老话“有志者,事竟成”,相信只要努力肯定会有收获。当1985年Microsoft的Windows视窗操作系统发布,就立即取代了以往的命令、代码系统(Microsoft Disk Operating Systerm,简称MS-DOS),立即成就了Microsoft这个庞然大物,让比尔·盖茨荣登世界首富的宝座,就是因为Windows简单简洁,操作方便,给用户带来了更好的操作体验,现在电脑已经走进千家万户,从几岁的孩子到五六十的老人,都能很快上手进行网上冲浪,这不正是Windows的魅力所在吗?乔布斯的Ipad风靡全球也正是因为这些原因,因为它让3岁的孩子都能很快成为“水果忍者”。Ambati的团队也做着同样的事情,他们也想让“触不可及”的大数据处理变得的简单如操作Windows一样,让每个人都能迅速成为数据库领域的“专家”,这不正是酝酿着一场新的数据革命吗?我们也期待H2O的发布,能给大数据带来一场新的变革!

推荐阅读
  • 深入解析BookKeeper的设计与应用场景
    本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案,广泛应用于需要高性能和强数据持久性的场景。 ... [详细]
  • 深入解析:主流开源分布式文件系统综述
    本文详细探讨了几款主流的开源分布式文件系统,包括HDFS、MooseFS、Lustre、GlusterFS和CephFS,重点分析了它们的元数据管理和数据一致性机制,旨在为读者提供深入的技术见解。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • HBase运维工具全解析
    本文深入探讨了HBase常用的运维工具,详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说,这些工具是日常管理和故障排查的重要手段。 ... [详细]
  • 本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件,类似于 Spark on YARN 的配置方式。我们将基于官方文档,深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]
  • 全面解析运维监控:白盒与黑盒监控及四大黄金指标
    本文深入探讨了白盒和黑盒监控的概念,以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法,结合四个黄金指标的解读,帮助读者更好地理解和实施有效的监控策略。 ... [详细]
  • 从码农到创业者:我的职业转型之路
    在观察了众多同行的职业发展后,我决定分享自己的故事。本文探讨了为什么大多数程序员难以成为架构师,并阐述了我从一家外企离职后投身创业的心路历程。 ... [详细]
  • 本文详细介绍如何使用 Apache Spark 执行基本任务,包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]
  • 深入解析Hadoop的核心组件与工作原理
    本文详细介绍了Hadoop的三大核心组件:分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制,帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]
  • 本文探讨了Hive作业中Map任务数量的确定方式,主要涉及HiveInputFormat和CombineHiveInputFormat两种InputFormat的分片计算逻辑。通过调整相关参数,可以有效控制Map任务的数量,进而优化Hive作业的性能。 ... [详细]
  • MapReduce原理是怎么剖析的
    这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1 ... [详细]
  • 本文详细介绍了使用ZooKeeper构建高可用集群的方法,包括必要的软件环境准备、配置文件调整及集群启动等关键步骤。通常,一个ZooKeeper集群由奇数个节点组成,以确保Leader选举的有效性。 ... [详细]
  • 58同城的Elasticsearch应用与平台构建实践
    本文由58同城高级架构师于伯伟分享,由陈树昌编辑整理,内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用,特别是在58同城的实施案例,包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]
  • 计算机网络复习:第五章 网络层控制平面
    本文探讨了网络层的控制平面,包括转发和路由选择的基本原理。转发在数据平面上实现,通过配置路由器中的转发表完成;而路由选择则在控制平面上进行,涉及路由器中路由表的配置与更新。此外,文章还介绍了ICMP协议、两种控制平面的实现方法、路由选择算法及其分类等内容。 ... [详细]
  • 构建Filebeat-Kafka-Logstash-ElasticSearch-Kibana日志收集体系
    本文介绍了如何使用Filebeat、Kafka、Logstash、ElasticSearch和Kibana构建一个高效、可扩展的日志收集与分析系统。各组件分别承担不同的职责,确保日志数据能够被有效收集、处理、存储及可视化。 ... [详细]
author-avatar
zackcoolgirl_497
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有