作者:ccsv0601604 | 来源:互联网 | 2023-08-04 13:08
一、大数据云平台应当具备
Real time 实时
海量实时计算
数据实时录入
动态实时标签
平台实时监控
数据实时应用
Efficient 高效
一键高效部署
数据高效整合
资源高效分配
模型高效计算
Control 监控
Value 价值
二、分布式数据系统
以数据价值和平台服务为导向,集成数据接入、整合、存储、计算和监控的分布式数据系统。
三、体现核心优势
数据接入
数据存储
平台管理
计算平台
四、技术提升点
批量数据导入效率
多线程并发抽取,缩短抽取时间,抽取效率提升约100%。如:400张表(5G数据容量),单线程串行抽取耗时约2个小时,8-16线程并发抽取耗时约1小时10分钟;
数据库整库抽取,数据源统一配置修改,提升部署效率(五分钟即可完成整库的数据抽取任务与定时调度任务的部署)。
流数据效率
支持按时间与按大小分隔当前输出日志,实现准实时的读写分离,提升日志提取实时率。可将日志实时同步率由T+1提升至毫秒级。
数据同步
支持Oracle数据库到Hdfs、Hbase的实时数据同步,同步时间可达到毫秒级,对Oracle源系统性能影响在0.01%以下;
支持Mysql数据库到Hdfs、Hbase的实时数据同步,同步时间可达到毫秒级,对Mysql源系统性能不受任何影响;
支持Nosql、内存数据库、网络爬虫、文件数据、第三方数据的同步及导入功能。
SQOOP功能
处理原sqoop组件无法抽取的oracle含有clob与blob字段的数据表的问题。抽取数据覆盖率提升至98%;
自动化重启因为jobFailed引起的抽取报错的数据表的抽取进程。数据抽取容错率提升10%;
同时支持Hive与hbase两种导入格式,可配置具体抽取方案。抽取数据的准确率提升至97%。
Flume功能
支持多台服务器日志,以及同台服务器多份日志的同时收集功能;
提供小文件的自动合并功能。优化HDFS文件存储,与任务执行效率,存储优化约节约90%的文件存储空间,降低90%的mapReduce任务数。
Hcinload功能
支持Oracle、Mysql、MongoDB、DB2、Txt、Csv、Http等多数据源批量、实时同步功能,并实现多数据源、多数据格式同时并发的实时导入;
支持百度统计、GA、微信等第三发平台的数据对接和导入;
支持WEB、APP端采集的网页数据、网站行为数据、APP数据的采集、实时同步功能。
Yarn
提升mapReduce运行效率;
提升资源调度效率;
提高磁盘容错率;
提升metadata的稳定性。
HDFS
提升hadoop原生系统稳定性,有连续有效运行时间超过700天的实施案例。
优化HDFS中文件块的存储规则,系统整体容错性提升10%、任务运行效率约提升15%、网络传输消耗约降低15%。
HIVE
提供稳定的hive-jdbc程序调用接口,解决原hive-jdbc接口12次调用约有一次失败的问题,容错率提升8%;
与Hbase进行整合,hive-sql的数据结果准确度提升至95%;
根据不同情况分配不同的mapReduce设置参数,提升hive-sql运行效率,运行效率约提升20%。
Hbase
提升高效的key-value形式的数据调用效率,支撑大并发的前台应用。可支持每秒十万并发调用下的毫秒级数据返回;
提供较高数据完整性与一致性的数据存放,与hive整合,提供hive调用hbase数据功能,数据准确率提升至97%,hive-sql的数据结果准确度提升至95%;
根据需求提供高效的hbase二级索引功能。提高复杂查询需求的查询效率。约提升查询效率40%。
Hcupload
支持60M/S的HDFS、HIVE、Hbase、Mysql、Redis等多数据载体的数据写入效率;
按时间、大小、行业及职能等不同方式分隔当前数据,实现实时数据分类后上传;
提供小文件的自动合并功能。
ZooKeeper
优化zookeeper主从选举机制;
提升分布式数据更新效率与一致性。
Gum
适用所有类型样本分布规律,包括非高斯分布、不均匀密度、复杂高维空间的模型支持;
提升算法在不同类型样本下的鲁棒性、抗噪音和异常值,算法适用性和稳定性提升10倍;
算法准确率提升85%;
算法运行时间平均缩短46%。
五、核心能力目标
日均10亿条数据实时处理能力;
累计5PB数据存储与计算能力;
上千台分布式集群连续3年不间断运行能力
更 多 精 彩 内 容 请 关 注 公 众 号(weikefangan),谢谢!