热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据平台规划

背景1.“云大开物”,四大热门信息技术1.1业务的发展越来越受到技术进步的影响。业务创新离不开技术创新。技术为业务服务?2.大数据技术栈全景:

背景

1.“云大开物”,四大热门信息技术

1.1 业务的发展越来越受到技术进步的影响。业务创新离不开技术创新。技术为业务服务?

2.大数据技术栈全景:

分布式编程

分布式文件系统

列数据库(HBase、Cassandra、BigTable)

柱数据库(Greenplum、BigQuery)

键值数据库(Redis、Amazon DynamoDB、Bolt)

文档数据库(MongoDB、RethinkDB)

关系数据库

新SQL数据库(HANA)

时间序列数据库

SQL引擎(Hive、PrestoDB、SparkSQL)

数据提取

服务编程

调度

机器学习

基准测试与安全

系统部署

应用程序

搜索引擎与框架

MySQL、PostgreSQL、Memcached

嵌入式数据库

商业智能

数据可视化

物联网数据

流计算引擎

数据管道

Big Data

公共数据集--(数据开放、数据云服务)

Hadoop - 大数据分布式数据存储与处理框架

Data Engineering

Streaming

设计哲学

拥抱开源、平台开放

鼓励自治、数据生态

支持创新、开发生态

数据共享与开放/数据门户/数据生态

使用ckan构建。

大数据众包、大数据运营

数据生态

数据治理 vs 数据自治(搜索引擎是典型的数据自治;自治-->生态)

机器学习

机器学习方法是计算机利用已有的数据,得出(训练)了某种模型,并利用此模型预测未来的一种方法。机器学习可完成直接编程(传统编程)无法完成的功能。

大数据平台规划

机器学习的方法:

1.回归算法

2.神经网络

3.SVM(支持向量机)

4.聚类算法

5.降维算法

6.推荐算法

监督学习算法:线性回归,逻辑回归,神经网络,SVM

无监督学习算法:聚类算法,降维算法

特殊算法:推荐算法

在2010年以前,机器学习的应用在某些特定领域发挥了巨大的作用,如车牌识别,网络***防范,手写字符识别等等。但是,从2010年以后,随着大数据概念的兴起,机器学习大量的应用都与大数据高度耦合,几乎可以认为大数据是机器学习应用的最佳场景。

1.大数据,小分析:即数据仓库领域的OLAP分析思路,也就是多维分析思想。

2.大数据,大分析:这个代表的就是数据挖掘与机器学习分析法。

3.流式分析:这个主要指的是事件驱动架构。

4.查询分析:经典代表是NoSQL数据库。

机器学习的子类–深度学习

深度学习就是传统的神经网络发展到了多隐藏层的情况。神经网络在隐藏层扩大到两个以上,其训练速度就会非常慢。

大数据平台规划

人工智能:

大数据平台与IaaS/PaaS

IaaS:OpenStack Keystone(认证服务)、OpenStack Swift(对象存储)

大数据平台与IaaS层配合可以实现大数据平台的自动部署、增减节点、多租户隔离等

PaaS:基于Docker技术

大数据前端(front-end)应用的托管、弹性伸缩

Hadoop as a Service

cloudbreak

面向的用户

数据提供者

数据分析师

开发者

运维工程师

安全

keystone、ldap、oauth与社交账号、基础认证

集成问题,如ckan、owncloud有自己的用户

Api store/data store/app store

开发生态

大数据应用的托管

API商店:体现了技术复用、降低学习门槛、有利于调试

爬虫服务算不算API?

部署

使用通用部署工具

docker部署

vagrant

cloudbreak

apache Ambari

HDP部署

使用ambari部署工具,最好能够是官方源+自制源的模式。对官方源汉化、添加自制服务。

素材

chrome加入人脸识别、印刷体识别OCR、条码识别,一行代码实现上述识别。 IDAP也有人脸识别、OCR、条码识别等行业案例,包装成API服务?

大数据API服务

人脸识别

车牌识别

×××识别

OCR

二维码识别

集成

用户(租户)的统一

数据集(管道)的对接

国际化

frontend-backend(REST API)

云计算模式

运营模式存在差异,如资源管理、收费、租户管理

公有云 计费,虚拟数据中心

共享云 大申请+审批+事后算账

专享云(私有云) 小申请+审批+统计



推荐阅读
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • 本文由公众号【数智物语】(ID: decision_engine)发布,关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程,介绍了41款实用工具,旨在帮助数据科学家和分析师提升工作效率。 ... [详细]
  • 深入解析轻量级数据库 SQL Server Express LocalDB
    本文详细介绍了 SQL Server Express LocalDB,这是一种轻量级的本地 T-SQL 数据库解决方案,特别适合开发环境使用。文章还探讨了 LocalDB 与其他轻量级数据库的对比,并提供了安装和连接 LocalDB 的步骤。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 本文将详细探讨MySQL中较为特殊的三种数据类型:SQLTEXT、DATE以及SET,包括它们的基本用法、适用场景及一些高级特性。 ... [详细]
  • 华为云openEuler环境下的Web应用部署实践
    本文详细记录了在华为云openEuler系统上进行Web应用部署的具体步骤,包括配置yum源、安装Apache、MariaDB、PHP及其相关组件,并完成WordPress的安装与配置过程。 ... [详细]
  • 本文介绍了基于Java的在线办公工作流系统的毕业设计方案,涵盖了MyBatis框架的应用、源代码分析、调试与部署流程、数据库设计以及相关论文撰写指导。 ... [详细]
  • 问题描述现在,不管开发一个多大的系统(至少我现在的部门是这样的),都会带一个日志功能;在实际开发过程中 ... [详细]
  • 本文详细介绍了PostgreSQL与MySQL在SQL语法上的主要区别,包括如何使用COALESCE替代IFNULL、金额格式化的方法、别名处理以及日期处理等关键点。 ... [详细]
  • 本文探讨了如何在Sitecore 9环境中通过Postman使用API密钥发送请求,包括解决常见错误的方法。 ... [详细]
  • MyBatis入门指南:环境搭建与基础配置详解
    本文详细介绍了MyBatis的基础配置流程,包括在Maven项目中添加MyBatis依赖、IDEA中配置数据库连接、导入SQL脚本以及编写mybatis-config.xml配置文件等关键步骤。 ... [详细]
  • 本文探讨了Android系统中联系人数据库的设计,特别是AbstractContactsProvider类的作用与实现。文章提供了对源代码的详细分析,并解释了该类如何支持跨数据库操作及事务处理。源代码可从官方Android网站下载。 ... [详细]
  • 本文探讨了在不同场景下如何高效且安全地存储Token,包括使用定时器刷新、数据库存储等方法,并针对个人开发者与第三方服务平台的不同需求提供了具体建议。 ... [详细]
  • V8不仅是一款著名的八缸发动机,广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来,作为Chromium项目的一部分,V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制,显著提升了JavaScript的执行效率,为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色,成为众多开发者和企业的首选。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
author-avatar
禁令2502861143
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有