热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

TeradataCTO:数据仓库融合开源,万物皆可分析

作为一家大数据技术公司的技术掌舵人,Teradata天睿公司首席技术官宝立明(StephenBrobst)对开源的热爱是业内共知的。但在热爱开源的背后,体现的是什么样的大数据技术路

作为一家大数据技术公司的技术掌舵人,Teradata天睿公司首席技术官宝立明(Stephen Brobst)对开源的热爱是业内共知的。但在热爱开源的背后,体现的是什么样的大数据技术路线呢?

Teradata天睿公司首席技术官宝立明(Stephen Brobst)


万物皆可分析

Teradata提出了“万物皆可分析”(Analytics of Everything)的说法,宝立明表示,“万物皆可分析”的概念指的是传感器能够捕获数据,以前很多公司只是在做数据的采集,现在这些企业已经成熟了,可以开始做数据的分析了。

在五到十年之前,还没有制造业企业在谈大数据分析,现在Teradata称万物皆可分析已经包括制造业。在医疗设备上,其实也是有传感器的,是放在人们的身上来检测身体状况,从而决定是不是需要一些治疗的干预,有利于提高医疗水平的质量,提高人们的身体健康的水平。同样,电信行业也是有传感器数据的,手机就是传感器,能够发送各种各样有关用户的移动的位置信息。还有零售行业也是如此,所以Teradata认为“万物皆可分析”,真正包括的万物是涵盖各行各业。

宝立明认为,万物皆可分析更重要。物联网或者万物互联,只是谈的是数据的收集。数据收集越多,成本越高,不分析就没有价值。

IoT数据带来的不同:



  1. 量是100倍于传统的数据,因此你需要一个非常强大的数据平台去存储它,去处理它,这个数据平台必须是高度可扩展的。



  2. 对于IoT数据而言,这种地理空间的数据占非常大的比例,所以Teradata需要在这方面拥有先进的地理空间分析的能力。



  3. 在IoT的数据中,有大量的基于时间序列的事件数据要去分析。而传统的SQL处理,基本上处理的是数据集,它不善于做这种时间序列处理。所以,这也是为什么Teradata谈到Aster在这方面是远远领先于其他数据分析技术。



对于万物皆可分析,Teradata一直以来倡导的技术架构是UDA(统一数据架构)。在UDA(统一数据架构)之下,Teradata既有自己的技术,也有各种各样开源的技术,比如Hadoop。同时Teradata还有数据湖的技术、Aster技术。Aster非常关键的一点是非常适合传感器数据的分析平台。

Teradata可以做的是,把数据先放到数据湖存储,经过Aster,经过对数据进一步处理,把它导入到数据仓库,为BI分析师所使用,所以它是一层一层的数据堆栈的架构。Aster作为一个数据平台,已经被移植到了Hadoop这种分布式的Power系统之上了,既可以在文件系统上去执行Aster,也可以在开源的数据库上应用。

针对万物皆可分析,Teradata相关的产品一共有七大类:



  1. Teradata Listener框架,能够以实时的方式把海量的数据导入到Teradata的系统里;2. 利用RESTful API,可以实现各种技术平台的对接;

  2. 一个非常可靠、高可伸缩的数据传输技术;



  3. 存储技术;



  4. 可兼容的技术;

  5. 不断完善的压缩技术;

  6. 即将推出的Teradata IntelliFlex一体机,基于海量并行处理(MPP)架构,能以非常高的经济性,有效地进行海量数据的处理。

Teradata还有一个nPath技术,结合了MapReduce和SQL来做时序数据的分析。

如果把MapReduce在Hadoop这样的一个分布式的文件系统上去做执行的话,它会产生大量的中间的文件。但是Teradata现在把MapReduce直接和SQL结合,它直接就会得出最终的文件,中间的这些文件就没有了,简化了分析的难度,并提高了效率。


开源的偏好与整合

如果回顾Teradata的公司历史,Teradata其实在15年前就已经宣布Teradata的数据库产品是跑在Unix、Linux开源的版本之上,而当时其他的数据库公司仍然是基于HPUX或者AIX。直到今天Teradata产品的操作系统仍然是Linux。

从操作系统层面看,Teradata是100%开源的,而Teradata的竞争对手,尽管会做很多开源市场的宣传,但他们基本上都是创建于商用的OS上。

在地理空间方面的数据分析能力上,Teradata直接使用了开源的技术,Teradata把地理空间数据分析的开源技术的能力做了一个并行,整合到Teradata自己的系统里。

宝立明列举了一些他感兴趣的开源大数据技术,并做简要评价。



  • Presto。Teradata和Facebook合作研发的一个项目,是一个Open SQL Engine on Hadoop,支持任何一种Hadoop。能够帮助Teradata很好地连接其他一些开源的数据库平台。



  • Mesos。和Yarn竞争的开源技术,主要是做资源管理的。当然用Mesos的时候,有时它用起来特别好用,但有时就不那么好用了。



  • R。从分析的角度来说,R本身有一个非常大的各种分析能力的库。但是R的问题是,它不可扩展,而Teradata的技术是高度可扩展的。通过并行R技术,就能够使得原来不具有扩展性的技术也变得高度可扩展。



  • Spark。它有机器学习、有流、有SQL的接口,在Hadoop上都可以运行。



  • Flink,Flink和Spark是竞争对手,目前这两个语言竞争是非常激烈的。但是Teradata很欢迎这种竞争,就像Mesos和Yarn的竞争一样。竞争是一件非常好的事情,可以让技术更好地发展。



尽管喜欢Spark,宝立明不喜欢Scala语言,这是出于编程难度的考虑。


Scala这个语言我不喜欢,为什么呢?学起来太难,你要学这个语言的话,可能编程要花费很长一段时间。


万物皆可分析依赖的Teradata UDA(统一数据架构),里面有Hadoop,有Presto,同时还有QueryGrid,可从Hadoop平台发起并完成跨平台查询,将处理过程下推到Teradata数据库。用户还可从Teradata平台发起查询,将处理过程下推到Hadoop平台。它是Teradata所说的商用和开源技术的混合体。而QueryGrid是运行在Presto上面的。对于Teradata的客户而言,Teradata可以让他们选择,他们可以选择开源,也可以选择商用的SAS。还有就是Teradata的Listener框架,它实质是Kafka,Kafka是一种并行传输的技术,它是开源的,是LinkedIn开发的。因此,Teradata的UDA,是非常好的一个开源和商用技术的混合体。

QueryGrid也可以支持与Presto来做连接,但是它不是只跟Presto来做连接,比如Teradata跟Presto连接,或Teradata也可以通过QueryGrid跟Oracle去做连接等。所以QueryGrid是一个产品,可以做很多数据的协同和连接器、处理器。


机器学习

开源机器学习是目前开源大数据领域的一个热门话题。宝立明表示,机器学习的关键一定是多种算法的结合,如果只偏向于一个或几个算法的话,必然会有盲区。所以一个大型的机器学习的系统里,会有多个算法,不同的算法算出来的结果Teradata把它结合起来。

Teradata为机器学习的这些引擎或是算法提供一个大数据的平台,而且这个平台是具有非常高的可延展性的。Teradata的做法是把这些机器学习的算法,像R、Ruby,内嵌到Teradata平台做并行的执行。



  1. 提供的平台,更多的是开源,这不是Teradata独享的,是SAS、Apache提供给Teradata的。



  2. Teradata把机器学习的算法,如Teradata自己的算法,或开源的算法,内嵌到Aster的数据平台之上,供Teradata的数据科学家做各种各样的实验、探索。Teradata也会用到自己开发的机器学习的算法,去更好地找到Teradata所说的可以商用的一些成熟的技术,再结合数据湖的一些技术。找到这些可用的技术能力之后,Teradata把它整合到自己的商用解决方案里。



他还表示,Teradata做的一件最为有意思的研发工作就是,把Spark的能力和Teradata Aster的数据平台结合在一起。Spark本身有一个执行的框架,Aster的平台有非常先进的分析能力。Spark部署和使用比较困难,需要是一个懂Spark编程的人员才行。但是对于Aster而言,任何一个数据科学家都可以使用,不一定要懂编程,所以如果两者能够结合在一起,是非常不错的。


云计算支持

对于云计算,宝立明表示,Teradata是一个云的使能者,客户可以做内部云、托管云,也可以在其他公有云的服务供应商上获得Teradata一些功能的云的服务。Teradata的原则是给客户同类最佳的技术选择。

首先有的客户愿意自己做,Teradata给提供内部云的方案,有的客户希望托管,Teradata为他们做性能的最大优化。还有的客户选择公有云。目前AWS是Teradata宣布的第一个公有云的合作伙伴。Teradata在全球会设有一些相应的托管云服务。例如在欧洲,Teradata在德国有一个托管云。

此外,针对一些客户的个性化需求,宝立明表示,Teradata提供的是一种分析的平台,但不做商业模型。不同的客户从Teradata拿到的是模板,有了这个模板之后,Teradata会为他们提供专业服务,帮他们进行应用的个性化的定制,根据自己的业务需求,而这一切Teradata都是通过App Center来实现的。



推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • DAO(Data Access Object)模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法,它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 在前一篇文章《Hadoop》系列之“踽踽独行”(二)中,我们详细探讨了云计算的核心概念。本章将重点转向物联网技术,全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈,我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外,还将讨论物联网面临的挑战,如数据安全和隐私保护等问题,并展望其在未来技术融合中的重要角色。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • 如何在Java中使用DButils类
    这期内容当中小编将会给大家带来有关如何在Java中使用DButils类,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。D ... [详细]
  • MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术
    在关系型数据库中,表的设计与SQL语句的编写对性能的影响至关重要,甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧,通过实例分析和优化建议,帮助读者深入理解并掌握这一重要知识点。 ... [详细]
  • 本文详细探讨了几种常用的Java后端开发框架组合及其具体应用场景。通过对比分析Spring Boot、MyBatis、Hibernate等框架的特点和优势,结合实际项目需求,为开发者提供了选择合适框架组合的参考依据。同时,文章还介绍了这些框架在微服务架构中的应用,帮助读者更好地理解和运用这些技术。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • PHP中元素的计量单位是什么? ... [详细]
  • 在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量,分析了当输入数据超过128MB时是否会自动拆分,以及Map数量是否越多越好的问题。通过实际案例和实验数据,本文提供了具体的配置建议,帮助用户在不同场景下实现最佳性能。 ... [详细]
  • 如何提升Python处理约1GB数据集时的运行效率?
    如何提升Python处理约1GB数据集时的运行效率?本文探讨了在后端开发中使用Python处理大规模数据集的优化方法。通过分析常见的性能瓶颈,介绍了多种提高数据处理速度的技术,包括使用高效的数据结构、并行计算、内存管理和代码优化策略。此外,文章还提供了在Ubuntu环境下配置和测试这些优化方案的具体步骤,适用于从事推荐系统等领域的开发者。 ... [详细]
author-avatar
looloSam
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有