当前位置: 开发笔记 > 编程语言 > 正文

网站流量日志分析项目02

作者：幸运幸福一家人1314_332_887 | 来源：互联网 | 2023-10-11 19:13

1.埋点收集数据实现视频01–埋点收集–系统部署架构图和采集流程梳理02–埋点收集–系统部署环境搭建03–埋点收集–方案一–基本功能数据采集实现04–埋点收集–方案二–点击事件

1. 埋点收集数据实现

视频

01–埋点收集–系统部署架构图和采集流程梳理
02–埋点收集–系统部署环境搭建
03–埋点收集–方案一–基本功能数据采集实现
04–埋点收集–方案二–点击事件数据采集实现
05–埋点收集–方案二–中文乱码问题解决

目标

本章先总结整个采集架构的流程原理&＃xff0c;再分别从如何部署环境实现页面浏览日志生成&＃xff0c;到点击事件的监控记录等操作。

小结

系统部署架构图和采集流程梳理
部署环境&＃xff08;node01安装httpd&＃xff0c;node03安装nginx&＃xff09;&＃xff1a;

软件位置&＃xff1a;day18-项目\软件\网站流量日志自定义采集服务\部署相关

配置文件位置&＃xff1a;day18-项目\软件\网站流量日志自定义采集服务\参考文档

安装文档&＃xff1a;day18-项目\讲义\hadoop项目–网站流量日志分析–1.pdf
方案一&＃xff1a;&＃xff08;页面刷新纪录用户数据&＃xff09;
- node01&＃xff1a;在 /var/www/html 下存放 index.html&＃xff0c;修改index ma.js所存放的服务器ip&＃xff08;node03&＃xff09;
- node03&＃xff1a;在 nginx安装目录/html 下存放 ma.js &＃xff0c;修改ma.js发送图片请求的ip地址&＃xff08;node03&＃xff09;&＃xff1b;在 nginx安装目录/conf 下存放 nginx.conf
- node01 上启动 httpd 服务&＃xff0c;node03上启动nginx服务。
- 刷新index.html页面&＃xff0c;监控 logs/access.log
方案二&＃xff1a;
- node01&＃xff1a;在 /var/www/html 下存放 index2.html、page1.html、page2.html、jquery-3.2.1.min.js&＃xff0c;修改 index2.html 文件内部 ma.js 地址修改为 node03&＃xff0c;其他 ip 地址为 node01 。
- node03&＃xff1a;在 nginx安装目录/html 下存放 ma.js &＃xff08;修改图片请求地址为node03&＃xff09;
- node03&＃xff1a;在 nginx安装目录/conf 下存放 nginx.conf
- node01 上启动 httpd 服务&＃xff0c;node03上启动nginx服务。
- 监控 logs/user_define.log
- 刷新index2.html&＃xff0c;点击链接1 链接2。
重新编译Nginx&＃xff0c;修复乱码问题&＃xff1a;

将 day18-项目\软件\网站流量日志自定义采集服务\参考文档\nginx中文乱码\ngx_http_log_module.c 存放到 src/http/modules/ngx_http_log_module.c 源码目录下&＃xff0c;安装上文提到的文档重新编译。该操作需要重启nginx&＃xff0c;否则无效。

2. Flume日志采集

视频

06–flume收集–新组件taildir source介绍
07–flume收集–配置文件编写和实操
08–flume收集–hdfs–基于文件闲置策略滚动

目标

前一章介绍了数据从无到有的采集&＃xff0c;本章介绍如何从 nginx 服务器将数据搬移到 Hadoop 集群上。使用Flume的 taildir source&＃xff0c;即可以实现采集不断产生内容的多个日志文件&＃xff0c;也可以实现断点续传。

小结

flume 新source taildir 特性&＃xff1a; exec spooldir
- 监控一个文件的变化
- 监控一个文件夹下多个文件的变化
- 支持断点续传功能 -json
核心配置如下&＃xff1a;

a1.sources &＃61; r1 a1.sources.r1.type &＃61; TAILDIR a1.sources.r1.positionFile &＃61; /var/log/flume/taildir_position.json 记录采集内容偏移量 a1.sources.r1.filegroups &＃61; f1 f2 a1.sources.r1.filegroups.f1 &＃61; /var/log/test1/example.log a1.sources.r1.filegroups.f2 &＃61; /var/log/test2/.*log.* 支持正则表达式
在使用flume采集数据到 hdfs 的时候&＃xff0c;以文件大小&＃xff08;128M&＃xff09;进行控制滚动&＃xff1a;

a1.sinks.k1.hdfs.rollInterval &＃61; 0 时间间隔 a1.sinks.k1.hdfs.rollSize &＃61; 134217728 文件的大小 a1.sinks.k1.hdfs.rollCount &＃61; 0 event数量 a1.sinks.k1.hdfs.idleTimeout&＃61;30 数据容量未达到时&＃xff0c;超时自动写到文件中

3. 数据清洗和模型构建

视频

09–数据预处理–目的意义和mr编程技巧
10–数据预处理–实现思路详解
11–数据预处理–mr代码实现
12–数据预处理–点击流模型概念

目标

Flume采集的数据中包含了一定的杂质&＃xff0c;比如404&＃xff0c;500响应的数据&＃xff0c;这些数据是没有意义的&＃xff0c;应该在分析前删除掉&＃xff1b;比如在采集的过程中&＃xff0c;有些字段无法获取到&＃xff0c;需要对这些缺失的字段进行补全等。

小结

数据预处理的目标&＃xff1a;在分析数据之前&＃xff0c;将不规则的数据清洗编程统一规则的结构化数据
资料&＃xff1a; ...\day19-项目\代码\
技术&＃xff1a;MapReduce
- 只有数据的清洗&＃xff0c;只需要 Map 不要 Reduce 。
- 可以将需要分析的多个字段可以封装成一个对象&＃xff08;实现Writable序列化接口&＃xff09;
- 重写对象的 toString 方法&＃xff0c;指定字段之间用 \001 进行分割&＃xff0c;因为Hive默认的分隔符就是 \001
- 针对无效的数据 / 静态资源&＃xff0c;可以直接过滤&＃xff0c;也可以通过建立标记位的形式进行逻辑删除
原始访问日志数据&＃xff08;access.log&＃xff09;是按照时间追加的&＃xff0c;是散点状的数据&＃xff1b;点击流模式所描述的是用户在网站持续访问的一条轨迹&＃xff0c;可以通过原始日志数据梳理而来。
用户一天访问了好几个页面&＃xff0c;如何判断该用户当天访问了该网站几次&＃xff1f;
- 通常业界以前后两条的记录的时间差是否在30分钟以内作为会话判断的标准。
- 所谓点击流模型指的是在一个会话内的持续访问轨迹线。

4. PageView模型&VistView模型

视频

13–数据预处理–点击流模型之pageviews模型
14–数据预处理–点击流模型之visit模型
15–数据预处理–点击流模型pageviews编程实现思路
16–数据预处理–点击流模型pageviews代码实现
17–数据预处理–点击流模型visit编程实现思路
18–数据预处理–点击流模型visit代码实现

目标

上一章介绍到点击流的概念&＃xff0c;所谓的点击流模式&＃xff0c;描述的是用户在网站持续访问的一条轨迹。通过分析我们可以得到各种各样的指标&＃xff0c;比如哪个页面访问频次最高&＃xff0c;哪个广告引流效果最好&＃xff0c;哪个时间段访问频次最高等等。本章我们先讲解如何构建一个点击流模型及得到相关的模型数据。

小结

PageView模型&＃xff1a;主要是计算每一个用户每一次会话内的访问页面的步骤和顺序。Map接收数据&＃xff1a;

192.168.1.100 8:30:25 a.html 192.168.1.100 8:30:35 c.html 192.168.1.100 8:31:05 d.html 192.168.1.100 18:31:05 k.html 192.168.1.100 18:31:30 m.html

Map输出&＃xff1a;key&＃xff08;ip&＃xff09;,value&＃xff08;其他数据&＃xff09;

Reduce处理&＃xff1a;

根据相同 IP 的按时间进行排序
1. 计算每个页面停留时间&＃xff08; 当前页进入时间 — 上一页进入时间&＃61;上一个页面停留的时间&＃xff09;。如果两个页面之间超过30分钟&＃xff0c;其配置新的会话 sessionID。最后一页停留时间默认为60s。
2. 为每个sessionID设置 step。

Reduce输出&＃xff1a;sessionID&＃xff0c;IP&＃xff0c;in_time&＃xff0c;pagename&＃xff0c;step&＃xff0c;stayTime

session1 192.168.1.100 8:30:25 a.html 1 10s session1 192.168.1.100 8:30:35 c.html 2 30s session1 192.168.1.100 8:31:05 d.html 3 60ssession2 192.168.1.100 18:31:05 k.html 1 25s session2 192.168.1.100 18:31:30 m.html 2 60s

VistView模型&＃xff1a;计算出用户在一次会话内的操作轨迹

Map输出&＃xff1a;key&＃xff08;session&＃xff09;,value&＃xff08;其他数据&＃xff09;

Reduce处理&＃xff1a;

根据相同 session 按 setp 进行排序
取出第一条数据和最后一条数据的部分数据输出

Reduce输出&＃xff1a;sessionID&＃xff0c;ip&＃xff0c;in_page&＃xff0c;in_time&＃xff0c;out_page&＃xff0c;out_time&＃xff0c;totalPage

session1 192.168.1.100 a.html 8:30:25 d.html 8:31:05 3 session2 192.168.1.100 k.html 18:31:05 m.html 18:31:30 2

推荐阅读

js
解析 .NET 中的 AJAX 技术

Asynchronous JavaScript and XML (AJAX) 的流行很大程度上得益于 Google 在其产品如 Google Suggest 和 Google Maps 中的应用。本文将深入探讨 AJAX 在 .NET 环境下的工作原理及其实现方法。 ... [详细]

蜡笔小新 2024-11-22 18:18:57
python
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
python
Android应用调试中的实用命令与实践

在Android应用开发过程中，开发者经常遇到诸如CPU使用率过高、内存泄漏等问题。本文将介绍几种常用的命令及其应用场景，帮助开发者有效定位并解决问题。 ... [详细]

蜡笔小新 2024-11-22 09:50:34
python
为何Compose与Swarm之后仍有Kubernetes的诞生？

探讨在已有Compose和Swarm的情况下，Kubernetes是如何以其独特的设计理念和技术优势脱颖而出，成为容器编排领域的领航者。 ... [详细]

蜡笔小新 2024-11-22 09:26:11
cmd
Docker安全策略与管理

本文探讨了Docker的安全挑战、核心安全特性及其管理策略，旨在帮助读者深入理解Docker安全机制，并提供实用的安全管理建议。 ... [详细]

蜡笔小新 2024-11-21 20:03:03
python
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
function
入门指南：使用FastRPC技术连接Qualcomm Hexagon DSP

本文旨在为初学者提供关于如何使用FastRPC技术连接Qualcomm Hexagon DSP的基础知识。FastRPC技术允许开发者在本地客户端实现远程调用，从而简化Hexagon DSP的开发和调试过程。 ... [详细]

蜡笔小新 2024-11-21 10:03:34
export
华为鲲鹏平台适配的Redis Docker镜像构建指南

本文详细介绍如何在华为鲲鹏平台上构建和使用适配ARM架构的Redis Docker镜像，解决常见错误并提供优化建议。 ... [详细]

蜡笔小新 2024-11-19 15:04:08
match
Spring Security基础配置详解

本文详细介绍了Spring Security的基础配置方法，包括如何搭建Maven多模块工程以及具体的安全配置步骤，帮助开发者更好地理解和应用这一强大的安全框架。 ... [详细]

蜡笔小新 2024-11-22 20:52:07
default
使用RxJS在AngularJS中区分单击与拖动操作

本文探讨了如何利用RxJS库在AngularJS应用中实现对用户单击和拖动操作的精确区分，特别是在调整区域大小的场景下。 ... [详细]

蜡笔小新 2024-11-22 11:56:41
default
解决Android Studio意外崩溃及重启后Import错误问题

本文提供了一种有效的方法来解决当Android Studio因电脑意外重启而导致的所有import语句出现错误的问题。通过清除缓存和重建项目结构，可以快速恢复开发环境。 ... [详细]

蜡笔小新 2024-11-22 11:53:00
python
2023年，Android开发前景如何？25岁还能转行吗？

近期，关于Android开发行业的讨论在多个平台上热度不减，许多人担忧其未来发展。本文将探讨当前Android开发市场的现状、薪资水平及职业选择建议。 ... [详细]

蜡笔小新 2024-11-21 18:08:07
python
大厂Java研发岗位面试总结与资料分享

本文总结了一次针对大厂Java研发岗位的面试经历，探讨了面试中常见的问题及其背后的原因，并分享了一些实用的面试准备资料。 ... [详细]

蜡笔小新 2024-11-20 19:00:01
python
物理隔离环境下的数据交换平台挑战与解决方案（上）

本文探讨了在一个物理隔离的环境中构建数据交换平台所面临的挑战，包括但不限于数据加密、传输监控及确保文件交换的安全性和可靠性。同时，作者结合自身项目经验，分享了项目规划、实施过程中的关键决策及其背后的思考。 ... [详细]

蜡笔小新 2024-11-20 18:18:23
function
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01

幸运幸福一家人1314_332_887

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章