热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据平台规划

背景1.“云大开物”,四大热门信息技术1.1业务的发展越来越受到技术进步的影响。业务创新离不开技术创新。技术为业务服务?2.大数据技术栈全景:

背景

1.“云大开物”,四大热门信息技术

1.1 业务的发展越来越受到技术进步的影响。业务创新离不开技术创新。技术为业务服务?

2.大数据技术栈全景:

分布式编程

分布式文件系统

列数据库(HBase、Cassandra、BigTable)

柱数据库(Greenplum、BigQuery)

键值数据库(Redis、Amazon DynamoDB、Bolt)

文档数据库(MongoDB、RethinkDB)

关系数据库

新SQL数据库(HANA)

时间序列数据库

SQL引擎(Hive、PrestoDB、SparkSQL)

数据提取

服务编程

调度

机器学习

基准测试与安全

系统部署

应用程序

搜索引擎与框架

MySQL、PostgreSQL、Memcached

嵌入式数据库

商业智能

数据可视化

物联网数据

流计算引擎

数据管道

Big Data

公共数据集--(数据开放、数据云服务)

Hadoop - 大数据分布式数据存储与处理框架

Data Engineering

Streaming

设计哲学

拥抱开源、平台开放

鼓励自治、数据生态

支持创新、开发生态

数据共享与开放/数据门户/数据生态

使用ckan构建。

大数据众包、大数据运营

数据生态

数据治理 vs 数据自治(搜索引擎是典型的数据自治;自治-->生态)

机器学习

机器学习方法是计算机利用已有的数据,得出(训练)了某种模型,并利用此模型预测未来的一种方法。机器学习可完成直接编程(传统编程)无法完成的功能。

大数据平台规划

机器学习的方法:

1.回归算法

2.神经网络

3.SVM(支持向量机)

4.聚类算法

5.降维算法

6.推荐算法

监督学习算法:线性回归,逻辑回归,神经网络,SVM

无监督学习算法:聚类算法,降维算法

特殊算法:推荐算法

在2010年以前,机器学习的应用在某些特定领域发挥了巨大的作用,如车牌识别,网络***防范,手写字符识别等等。但是,从2010年以后,随着大数据概念的兴起,机器学习大量的应用都与大数据高度耦合,几乎可以认为大数据是机器学习应用的最佳场景。

1.大数据,小分析:即数据仓库领域的OLAP分析思路,也就是多维分析思想。

2.大数据,大分析:这个代表的就是数据挖掘与机器学习分析法。

3.流式分析:这个主要指的是事件驱动架构。

4.查询分析:经典代表是NoSQL数据库。

机器学习的子类–深度学习

深度学习就是传统的神经网络发展到了多隐藏层的情况。神经网络在隐藏层扩大到两个以上,其训练速度就会非常慢。

大数据平台规划

人工智能:

大数据平台与IaaS/PaaS

IaaS:OpenStack Keystone(认证服务)、OpenStack Swift(对象存储)

大数据平台与IaaS层配合可以实现大数据平台的自动部署、增减节点、多租户隔离等

PaaS:基于Docker技术

大数据前端(front-end)应用的托管、弹性伸缩

Hadoop as a Service

cloudbreak

面向的用户

数据提供者

数据分析师

开发者

运维工程师

安全

keystone、ldap、oauth与社交账号、基础认证

集成问题,如ckan、owncloud有自己的用户

Api store/data store/app store

开发生态

大数据应用的托管

API商店:体现了技术复用、降低学习门槛、有利于调试

爬虫服务算不算API?

部署

使用通用部署工具

docker部署

vagrant

cloudbreak

apache Ambari

HDP部署

使用ambari部署工具,最好能够是官方源+自制源的模式。对官方源汉化、添加自制服务。

素材

chrome加入人脸识别、印刷体识别OCR、条码识别,一行代码实现上述识别。 IDAP也有人脸识别、OCR、条码识别等行业案例,包装成API服务?

大数据API服务

人脸识别

车牌识别

×××识别

OCR

二维码识别

集成

用户(租户)的统一

数据集(管道)的对接

国际化

frontend-backend(REST API)

云计算模式

运营模式存在差异,如资源管理、收费、租户管理

公有云 计费,虚拟数据中心

共享云 大申请+审批+事后算账

专享云(私有云) 小申请+审批+统计



推荐阅读
  • NoSQL数据库,即非关系型数据库,有时也被称作Not Only SQL,是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求,特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能,支持分布式部署,能够有效应对互联网时代的海量数据挑战。 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • 美团优选推荐系统架构师 L7/L8:算法与工程深度融合 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术
    在关系型数据库中,表的设计与SQL语句的编写对性能的影响至关重要,甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧,通过实例分析和优化建议,帮助读者深入理解并掌握这一重要知识点。 ... [详细]
  • 在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧
    在 CentOS 7 环境中安装和配置 Redis 时,需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程,并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外,还探讨了如何优化性能和确保数据安全,帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]
  • 字节跳动深圳研发中心安全业务团队正在火热招募人才! ... [详细]
  • 本文详细介绍了HDFS的基础知识及其数据读写机制。首先,文章阐述了HDFS的架构,包括其核心组件及其角色和功能。特别地,对NameNode进行了深入解析,指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系,并通过持久化方案确保数据的可靠性和高可用性。此外,还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]
  • 在Linux系统中,原本已安装了多个版本的Python 2,并且还安装了Anaconda,其中包含了Python 3。本文详细介绍了如何通过配置环境变量,使系统默认使用指定版本的Python,以便在不同版本之间轻松切换。此外,文章还提供了具体的实践步骤和注意事项,帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]
  • 本文将深入探讨MySQL与MongoDB在游戏账户服务中的应用特点及优劣。通过对比这两种数据库的性能、扩展性和数据一致性,结合实际案例,帮助开发者更好地选择适合游戏账户服务的数据库方案。同时,文章还将介绍如何利用Erlang语言进行高效的游戏服务器开发,提升系统的稳定性和并发处理能力。 ... [详细]
  • SpringBoot非官方教程|终章:文章汇总springboot非官方教程,可能最接近于官方的一个教程,大多数案例都来自于官方文档,为了更好的理解,加入了个人的改造。码云下载:htt ... [详细]
  • DockerFile部署lnmp+memcached+redis+mongodb开发环境for PHP(三)
    本文源链接地址:https:www.93bok.com1、下载基础镜像centos2、查看一下大小 ... [详细]
  • Storm集成Kakfa
    一、整合说明Storm官方对Kafka的整合分为两个版本,官方说明文档分别如下:StormKafkaIntegratio ... [详细]
author-avatar
禁令2502861143
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有