当前位置: 开发笔记 > 编程语言 > 正文

##公司合作项目--基于质差指标筛选结果的spark-sql查询系统Demo

作者：鐘文斌kebenJ | 来源：互联网 | 2023-09-04 12:40

一系统简介数据简介系统功能二处理流程数据处理

这里写图片描述

一系统简介
- 数据简介
- 系统功能
二处理流程
- 数据处理
- spark-sql 使用流程

一.系统简介

1.数据简介：

本Demo系统所用数据是某省某运营商 IPTV 用户数据，基于此数据，经过一系列的数据清洗与数学建模，最终得到了三个质差用户指标，本Demo系统是基于初步筛选的七个指标的数据进行的。

2.系统功能：

在上述的有七个指标的数据中，通过质差指标对新的用户数据进行筛选，筛选出来的即为质差用户-质差设备，方便相关部门对质差设备进行处理，从而能提高QOS。

二.处理流程

1.数据处理：

由于我们使用的是spark-sql版本较老，所以我们存储在 hdfs 上的数据是文本 txt 形式，数据间以逗号隔开，如果数据是excel，则可以通过excel转成 txt 文本，具体流程可以百度。本文使用的spark集群给的工作模式是 spark on yarn。搭建过程可参考：http://blog.csdn.net/zhaolei5911/article/details/53168390

2.spark-sql 使用流程：

val sqlCOntext= new org.apache.spark.sql.SQLContext(sc)

import sqlContext._

case class Person(id : Double,df: Double,jitter: Double,mlr : Double,loss_packet_rate : Double,abend_num : Double,avg_bit_rate : Double,play_time : Double)

val people = sc.textFile("hdfs://hadoop-master:8020/data/zte/24.txt").map(_.split(",")).map(p => Person(p(0).trim.toDouble, p(1).trim.toDouble,p(2).trim.toDouble,p(3).trim.toDouble,p(4).trim.toDouble,p(5).trim.toDouble,p(6).trim.toDouble,p(7).trim.toDouble))

people.registerAsTable("people")

val q_low_qos = sql("SELECT id FROM people WHERE df >= 13 AND mlr <= 20 AND abend_num >20")   (由于相关要求，具体筛选出的三个指标保密)

q_low_qos.map(t => "Name: " + t(0)).collect().foreach(println)   (输出质差用户的id)

推荐阅读

text
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
stream
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
go
pyspark RDD数据的读取与保存

数据读取hadoopFileParameters:path–pathtoHadoopfileinputFormatClass–fullyqualifiedclassnameo ... [详细]

蜡笔小新 2024-10-17 18:31:13
uri
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
uri
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
text
基于CXF框架的Web服务开发详细示例

在Java Web服务开发中，Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力，以及更简便的部署方式，成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发，包括环境搭建、服务发布和客户端调用等关键步骤，为开发者提供一个全面的实践指南。 ... [详细]

蜡笔小新 2024-11-08 18:43:17
uri
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
stream
Zookeeper在Hadoop生态系统中的关键作用与应用分析

Zookeeper作为Apache Hadoop生态系统中的一个重要组件，主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能，有效提升了分布式系统的可靠性和可维护性。此外，Zookeeper还支持配置管理和临时节点管理，进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]

蜡笔小新 2024-11-04 15:48:51
stream
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
text
深入理解Spark框架：RDD核心概念与操作详解

RDD是Spark框架的核心计算模型，全称为弹性分布式数据集（Resilient Distributed Dataset）。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作，包括创建、转换和行动操作等，帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段，进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]

蜡笔小新 2024-10-29 20:10:01
text
解决sbt构建过程中遇到的“对象apache非org软件包”错误

在使用sbt构建项目时，遇到了“对象apache不是org软件包的成员”的错误。本文详细分析了该问题的原因，并提供了有效的解决方案，包括检查依赖配置、清理缓存和更新sbt插件等步骤，帮助开发者快速解决问题。 ... [详细]

蜡笔小新 2024-10-29 16:21:59
format
Hadoop + Spark安装(三) —— 调hadoop

***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]

蜡笔小新 2024-10-17 11:56:27
go
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
text
深入掌握Scala面向对象编程与Spark源码解析

在第二课中，我们将深入探讨Scala的面向对象编程核心概念及其在Spark源码中的应用。首先，通过详细的实战案例，全面解析Scala中的类和对象。作为一门纯面向对象的语言，Scala的类设计和对象使用是理解其面向对象特性的关键。此外，我们还将介绍如何通过阅读Spark源码来进一步巩固对这些概念的理解。这不仅有助于提升编程技能，还能为后续的高级应用开发打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-03 14:51:55
text
协同过滤算法结合相似度评估与交替最小二乘优化技术

本文探讨了协同过滤算法在推荐系统中的应用，重点介绍了基于用户和基于物品的两种协同过滤方法。通过引入相似度评估技术和交替最小二乘优化技术，显著提升了推荐系统的准确性和鲁棒性。实验结果表明，该方法在处理大规模数据集时表现出色，能够有效提高用户满意度和系统性能。 ... [详细]

蜡笔小新 2024-10-29 11:59:51

鐘文斌kebenJ

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章