热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

贝壳总监分享数据中台与大数据平台架构,数字化房企早该如此

今天给大家说一下贝壳一站式大数据开发平台实践,图片不太好看,还请见谅贝壳的大数据平台主要的数据源可以分为三类:人:卖家(业主)、买家(买房的、租房的)、经纪人;物:楼盘字典,之前我

今天给大家说一下贝壳一站式大数据开发平台实践,图片不太好看,还请见谅

数据平台架构,大数据平台开发,大数据平台架构,大数据架构设计

贝壳的大数据平台主要的数据源可以分为三类:

人:卖家(业主)、买家(买房的、租房的)、经纪人;

物:楼盘字典,之前我分享的文章里介绍过(文末有链接),贝壳08年就弄了一个团队专门整楼盘主数据,建了一个2亿套房子的楼盘字典,给每套房子都编了唯一的ID,这不就是数据中台的ONE ID么;

行为:线上浏览行为、线下沟通、看房、谈判等各种行为。

对于大数据平台来说,最重要的能力就是低成本、快速、准确的为各个部门提供各种形式的数据。但是如同每个公司一样,贝壳也是不断演进的。

数据平台架构,大数据平台开发,大数据平台架构,大数据架构设计

其实这也符合架构的原理:够用就行,适度超前。

毕竟满足业务需求是第一要务,跟产品的MVP(最小可行产品)原则一致。现在很多公司搞大数据的套路是先找一个总监,总监再找一个架构师,然后瞅准最先进的数据中台搞。这种公司各位最好有多远躲多远。

数据平台架构,大数据平台开发,大数据平台架构,大数据架构设计

贝壳最早的大数据开发平台,非常的简单粗暴。经典的Kafka+Sqoop+HDFS+Hive,任务调度用Ooize,处理完之后的数据放在MySQL中,报表平台直接读取MySQL的数据做展示。

大家不要觉得这个很Low,其实这套架构足够一个中小型公司用好久好久了。基本上招一个中级大数据工程师,带俩初级工程师,加一个报表工程师,能抗很久。

贝壳的同学很实在,把每个架构的优缺点都罗列出来了,我就不赘述了。

数据平台架构,大数据平台开发,大数据平台架构,大数据架构设计

架构的演进要么是有高手前瞻性的规划,要么就是痛苦到被迫改进。我认为贝壳两方面的因素都有,判断有高手的原因是贝壳这次的5个负责人分享的时候都共同提到了架构的核心思想,所以他们内部应该有比较好的技术分享氛围和合作基础。

判断被迫改进的原因是贝壳发展太快了,对于喷涌而来的复杂业务和海量需求,应该也是非常痛苦的。

从这一版的大数据架构可以看到,整体是按照lambda的框架进行搭建的。增加了实时处理部分,用Storm、SparkStreaming处理后直接丢给Hbase,用API对外提供实时数据服务。

对比上一版,这边对数据处理这边做了很多改进,建了数仓和即时查询引擎,加了数据产品对外提供自助式查询和分析的服务。不过这ROLAP没太看明白,直接用MySQL+Rest API?这效率没法看了吧?

MOLAP主要用的是Kylin,后面的OLAP平台会仔细讲,贝壳是Kylin的深度用户。

数据平台架构,大数据平台开发,大数据平台架构,大数据架构设计

这个架构看起来是不是就有数据中台的意思了?值得注意的是,贝壳也开始尝试TiDB了,这应该也是大趋势。

所以在这一版中,大量的增加了可视化编程工具,简化开发流程;增加了大量的管理工具和自动化运维工具,进行了数据标准化和质量管控,对外开放了大量的数据,实现了数据资产盘活。

数据平台架构,大数据平台开发,大数据平台架构,大数据架构设计

数据管理没啥好说的,谁家的都一样。

数据平台架构,大数据平台开发,大数据平台架构,大数据架构设计

早期的数据集成都是特别粗暴的Sqoop和kafka任务,那玩意谁用谁知道,维护简直是要了命了。现在改用DataX、DataBus等工具,效率杠杠的。

不过介绍这张片子的时候,他们能自动接入新库和新表,数据结构变化也能自动同步。这点就有意思了,技术上好处理,先读一下业务库的数据结构就行了。但是在跟业务开发那边怎么协同的呢?

自动同步数据结构,不会导致数仓后续任务出问题么?所以我认为应该是监控数据结构发生变化,如果不会对后续任务产生影响,比如增加字段,则继续进行,如果是字段发生变化,应该会停任务,报警。

另外,业务开发那边应该还有其他的数据库结构变更上线的审批和通知,提前告知结构较大变动的情况。

数据平台架构,大数据平台开发,大数据平台架构,大数据架构设计

作业调度这边,为了保证任务的健壮性,这边设置了几道防线:sql执行测试、数据准确性测试和最终的上线。

数据平台架构,大数据平台开发,大数据平台架构,大数据架构设计

这边的数据质量基本上也是通过完善开发流程、完善任务监控体系和事后的数据质量监控来完成的。这部分略显薄弱,缺少数据质量分析、评估、验证和数据质量问题管理。我估摸着这边还是以先满足业务需求为准吧,反正数据错了有人会找上门来的。

数据平台架构,大数据平台开发,大数据平台架构,大数据架构设计 数据平台架构,大数据平台开发,大数据平台架构,大数据架构设计

最后是数据开放。贝壳的几位同事都共同提到一句话:数据的价值再大,不对外开放,那就是垃圾,我表示非常认同。数据放在那里就是成本,开放、共享出去才有价值。

后面的OLAP平台、DMP平台、推荐平台、算法中台都是从大数据平台这边获取的数据,贝壳的app也大量从大数据平台这边获取各种数据。

不过我发现大数据平台数据中间层用的是mysql、Hbase和clickhouse,貌似没用ES,不知道是处于什么考虑。

嗯,贝壳大数据平台的架构发展路径非常值得借鉴,活生生的案例啊!

很显然在目前的信息时代,借助类似于FineBI的这些工具,可以让企业加速融入企业数据分析的趋势。备受市场认可的软件其实有很多,选择时必须要结合实际的情况。一般的情况下,都建议选择市面上较主流的产品,比较容易达到好的效果,目前企业数据分析BI软件市场占有率前列的,就是帆软BI软件——FineBI。


推荐阅读
  • 数据仓库中基本概念
    一、数据仓库数据仓库(DataWarehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合,用于支持管理人员的决策面向主题主题就是类型的意思。传统数 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 智能制造数据综合分析与应用解决方案
    在智能制造领域,生产数据通过先进的采集设备收集,并利用时序数据库或关系型数据库进行高效存储。这些数据经过处理后,通过可视化数据大屏呈现,为生产车间、生产控制中心以及管理层提供实时、精准的信息支持,助力不同应用场景下的决策优化和效率提升。 ... [详细]
  • 在Linux系统中,原本已安装了多个版本的Python 2,并且还安装了Anaconda,其中包含了Python 3。本文详细介绍了如何通过配置环境变量,使系统默认使用指定版本的Python,以便在不同版本之间轻松切换。此外,文章还提供了具体的实践步骤和注意事项,帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]
  • 说起银行、保险、股票投资这样的金融行业,很多人都认为它们是依靠数据驱动的企业,毕竟大数据的诞生本来就是为了金融信息流通而服务的,但在我身边很多搞证券、投资的朋友看来,事实却并非如此 ... [详细]
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
  • 不会搭建大数据平台,我被老板优化了...
    不会,搭建,大数,据,平台,我 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • 深入解析十大经典排序算法:动画演示、原理分析与代码实现
    本文深入探讨了十种经典的排序算法,不仅通过动画直观展示了每种算法的运行过程,还详细解析了其背后的原理与机制,并提供了相应的代码实现,帮助读者全面理解和掌握这些算法的核心要点。 ... [详细]
  • 启动activemq_「Java」SpringBoot amp; ActiveMQ
    一、消息队列消息队列中间件是分布式系统中重要的组件,主要解决应用耦合、异步消息、流量削锋等问题,实现高性能、高可用、可伸缩和最终一致性架构, ... [详细]
  • Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及流式消费变化数据的能力。应用场景近实时数据摄取Hudi支持插入、更新和删除数据的能力。您 ... [详细]
  • 转载:https:blog.csdn.nethigh2011articledetails70155431清华大学镜像网:https:mirrors.tu ... [详细]
  • 本文介绍了一个项目风险管理论文示例,该论文以某公司的人力资源管理系统建设项目为例,详细介绍了该项目的背景、投资、工期、推广应用以及解决的业务难题。该系统具备多个系统功能模块,采用Java语言开发,基于J2EE架构,使用Oracle数据库和Weblogic中间件,服务器采用DELL塔式商用服务器,并采用双机热备和光纤存储。该系统的实施能够提升信息共享和协同作业范围,解决数据统计工作量大、容易出错等问题,同时还能提高业务办公质量和进行成本控制。 ... [详细]
  • 【PPT 下载】这杯网红茶饮,到底赢在哪里?
    【PPT 下载】这杯网红茶饮,到底赢在哪里? ... [详细]
author-avatar
qsslidan
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有