当前位置: 开发笔记 > 编程语言 > 正文

机器学习与大数据导论

作者：mobiledu2502916457 | 来源：互联网 | 2023-06-19 15:22

大数据时代究竟改变了什么？改变的是思维增加了数据重要性：数据资源---&amp;gt;数据资产（增值）改变了方法论：基于知识的理论完美主义---&a

大数据时代究竟改变了什么？

改变的是思维
增加了数据重要性：数据资源--->数据资产（增值）
改变了方法论：基于知识的理论完美主义--->基于数据的历史经验主义
改变了数据分析：统计学（抽样）--->数据科学（大数据）
改变计算智能：复杂算法--->简单算法（MapReduce）
改变决策方面：基于目标决策--->基于数据决策
改变业务方面：基于业务的数据化--->数据主导业务
产业竞合：以战略为中心--->以数据为中心

大数据的4V特征

数据量大：数据量从TB增长到PB，ZB、使用HDFS分布式文件系统存储
数据种类多

结构化的数据：Mysql为主的存储和处理

非结构化数据：包括图形、音频等；使用 HDFS存储，使用MapReduce，Hive分析

半结构化数据：包括XML，HTML；使用 HDFS存储，使用MapReduce，Hive，Spark分析

速度快

数据的增长速度快:TB-PB-ZB、HDFS

数据的处理的速度快：MR-Hive-Pig（结构化数据）-Impala；Spark-Flink（实时处理）

价值密度低

价值密度=有价值的数据/全部数据。分母快速增长导致价值密度低，同时总价值提高

机器学习算法解决价值密度低：构建模型

大数据与机器学习关系：大数据做基础的数据存储，数据的统计计算；机器学习从大量的数据里面挖掘有价值的数据

大数据项目架构-以电信日志分析为例

项目名称：电信日志分析系统

项目描述：电信日志分析系统是以电信用户上网所产生的数据进行分析和统计计算，数据主要是来源于用户上网产生的访问日志和安全日志，通过hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能，达到异常IP的检测、关键词过滤、违规违法用户的处理等，整个项目的数据量在1T-20T左右，集群数量在10台到20台。

项目架构分析：

数据采集层

一、用户访问日志数据

               数据格式：地区码201|用户ip|目的ip|流量|...
               数据采集的方式：采用的是ftp的方式上传到服务器
               数据上传的时间：每个小时上传上一个小时的数据
               小文件的合并：通过shell完成小文件的合并
               监控文件：JNotify

二、用户安全日志数据

               当用户触犯电信部门指定的制度，违反国家法律法规。
               数据采集方式：Socket....C++完成数据采集先缓存到内存在到磁盘
               数据格式：加密码：加密形式abc：1134234234
三、网卡配置：千兆或万兆网卡

数据存储层

HDFS分布式文件系统

数据分析层

           MapReduce：完成数据清洗的工作，如缺失字段的处理、异常值的处理等
           MR和Redis进行交互：完成地区码201和地区名字的转换（覆盖map函数，将地区码转换成地区）
数据到Hive与Impala中做处理：Hive：1.处理实时性要求不高统计需求2.HIVE做一些小文件合并3.将Hive处理后的数据进一步加载到其他业务系统处理；Impala：实时性较高的需求
           数据到HBASE：完成固定条件查询
           数据到Spark中实时查询：解决了单一数据源在40个指标的情况下完成内存中的计算和topon的求取
           OOZIE：进行任务调度
           Mysql：Hive元数据存放，OOZIE元数据存放
           接口机：用于提交任务的机器：提交OOZIE任务：MR-Hive-Impala；提交Spark任务

机器学习层

位于大数据上层，完成的是大数据基础的数据存储和数据计算之上，通过数据结合机器学习算法构建机器学习模型，利用模型对现实事件作出预测

数据展示层

           Oracle+JAVA+SSM做框架
           hive使用sqoop存储进Oracle
           impala可使用JDBC方式直接与web交互
           HBASE使用协处理器+thrift

项目职责

重点负责：实时or离线
处理分析了哪些字段，通过何种手段进行分析

项目优化

修改成 HDFS+Spark平台一站式搞定

集群部署建议

       1.主节点互备（NN和RN）
       2.需要较大网络宽带的机器通常配置两块网卡，至少是千兆网，并且分别地属于不同的网段（接受数据和put数据不能在同一个网段）
       3.需要较大内存的服务组件最好不要集中在一台机器上
       4.cpu消耗较高的组件一定要单独在一台机器上
       5.采集机同时可以当做接口机使用
       6.如果有非hadoop的组件需要使用，建议单独分配机器或者直接使用hadoop普通存储机
       7.组件的元数据库一定要有备份机，最好不要使用hadoop机器
       8.根据删除数据的重要性可以考虑是否使用垃圾桶机制（节省存储空间）

机器学习与大数据导论

大数据项目架构-以医疗项目为例

分析数据存储

机器学习与大数据导论

人工智能的发展

人工智能的三次浪潮：跳棋：专家系统，象棋：统计模型，围棋：深度学习

人工智能的场景应用：图形识别-分类；无人驾驶；智能翻译；语音识别；医疗智能诊断；数据挖掘

人工智能、机器学习、深度学习概念区别

人工智能（暴力）>机器学习（加入算法）>深度学习（一种方法）
机器学习只是人工智能的一个分支，机器学习分支还有数据挖掘和模式识别
深度学习是机器学习的一种方法，是为了解决机器学习做不好的领域如图片识别
人工智能如何落地？--依靠机器学习

数据分析、数据挖掘、机器学习

数据：即观测值，测量值
信息：可信的数据
数据分析：数据-->信息
数据挖掘：信息-->到有价值的信息
模式识别：图像识别

总结：数据----数据分析---信息---数据挖掘/模式识别---有价值的信息

机器学习和深度学习方法能解决数据挖掘/模式识别这些事情

什么是机器学习？

人类学学=大脑+经验
机器学习=机器+学习=CPU+GPU（图形图像处理器）+数据+算法
概念：机器学习致力于研究如何通过计算的手段，使用算法和数据构建模型，通过模型达到预测的功能

什么不是机器学习？

机器学习：从已有的经验中学习经验，从经验去分析。如判断收到邮件是否是垃圾邮件，自动标记facebook中的照片，考虑购物习惯推荐商品，预测汇率涨不涨，根据病症判断是哪类疾病
确定问题不是机器学习：计算每种箱子的个数
数值计算问题不是机器学习：计算一组数的平均值大小

判断方法：可以通过是否具有预测过程判断是否是机器学习

基于规则和基于模型

基于规则学习：专家发现规律制定规则，是采用硬编码方式进行学习
基于模型学习：通过数据构建机器学习模型，通过模型进行预测
X（自变量，定义域--->特征）----f（函数、映射---->模型）--->Y(因变量、值域--->结果）
最终目的是求解y=kx+b中的k和b
机器学习学习的是什么？学习的是模型。学习的是模型中的k和b，即模型参数

推荐阅读

export
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
ip
提升 Kubernetes 集群管理效率的七大专业工具

Kubernetes 在云原生环境中的应用日益广泛，然而集群管理的复杂性也随之增加。为了提高管理效率，本文推荐了七款专业工具，这些工具不仅能够简化日常操作，还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查，这些工具覆盖了集群管理的各个方面，帮助管理员更好地应对挑战。 ... [详细]

蜡笔小新 2024-11-07 17:01:31
main
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
post
Google 实验框架优化：实现更高效、更精准、更快速的测试

为了评估精心优化的模型与策略在实际环境中的表现，Google对其实验框架进行了全面升级，旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景，提供更好的数据洞察，并显著缩短了实验周期，从而加速产品迭代和优化过程。 ... [详细]

蜡笔小新 2024-11-04 21:02:34
ip
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
main
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
main
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
ip
西北工业大学计算机科学考研指南

西北工业大学作为陕西省三所985和211高校之一，虽然在农业和林业领域不如某些顶尖院校，但在航空航天领域的实力尤为突出。该校的计算机科学专业在科研和教学方面也具有显著优势，是考研的理想选择。 ... [详细]

蜡笔小新 2024-10-29 19:04:10
buffer
在Python 3环境中实现离线模块安装的方法与技巧

在Python 3环境中，当无法连接互联网时，可以通过下载离线模块包来实现模块的安装。具体步骤包括：首先从PyPI网站下载所需的模块包，然后将其传输到目标环境，并使用`pip install`命令进行本地安装。此方法不仅适用于单个模块，还支持依赖项的批量安装，确保开发环境的完整性和一致性。 ... [详细]

蜡笔小新 2024-10-28 15:57:25
range
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
config
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
main
精选Linux经典著作在数字图书馆展出

数字图书馆近期展出了一批精选的Linux经典著作，这些书籍虽然部分较为陈旧，但依然具有重要的参考价值。如需转载相关内容，请务必注明来源：小文论坛（http://www.xiaowenbbs.com）。 ... [详细]

蜡笔小新 2024-11-08 10:55:29
config
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
main
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
main
《Hadoop》系列深度探索（三）：物联网技术综述与应用前景

在前一篇文章《Hadoop》系列之“踽踽独行”（二）中，我们详细探讨了云计算的核心概念。本章将重点转向物联网技术，全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈，我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外，还将讨论物联网面临的挑战，如数据安全和隐私保护等问题，并展望其在未来技术融合中的重要角色。 ... [详细]

蜡笔小新 2024-11-03 18:20:22

mobiledu2502916457

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章