热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

详解:离线项目一:为什么大数据面前没有秘密

疑问:我们在购物浏览淘宝或则京东的时候,为什么过一点时间在次登录的时候,就会出现之前浏览的相同商品或则类似商品呢,还有在浏

疑问:

我们在购物浏览淘宝 或则 京东的时候,为什么过一点时间在次登录的时候,就会出现之前浏览的相同商品或则类似商品呢,还有在浏览一些网页,视频的时候,也会出现这样的现象呢?
小编之前一直有这个疑问,如今在大数据的学习当中找到了答案


为什么

是否感觉有一双眼睛在观察我的所有行为,时候感觉我的行为都有被记录,
在哪里被记录,在哪里呢 在哪里呢


一:解答

这里就设计到了一个叫做用户行为数据 操作记录和浏览记录 每一步操作都有记录
用户:人、设备
其中也叫千人千面 每个人浏览的网页不同,他所推荐记录的数据也不不同
推荐: 根据 用户行为数据(历史)+订单类型 搜索的东西 比如在京东浏览

在这里插入图片描述
在京东上面浏览网页 》 在右键点击有审查元素 》 里面有个network

找到 log.gif 买点,记录,,这个信息是经过编码的 ,看不出来是什么 通过这份日志可以分析出来很多的东西 每个产品你搜索多少次 浏览器 什么系统os

在这里插入图片描述

这个乱码可以解析出来的
在百度找urldecode 解码
在这里插入图片描述

你每一步的操作都有记录
不同的公司机制是不一样的 在大数据平台,告诉你为什么是透明的

这里就是最初是的日志信息


二:介绍框架


离线典型的处理框架

人 ——京东页面 ——webserver(集群,这里记录你的 操作所以行为日志 )—— 通过flume采集——hadoop的hdfs 上面存储 ——数据分析 mp/hive/spark(这里的数据存储还是在hdfs上面)——你要做前端的展示 就要(通过 用Sqoop )数据存储在ROBMS /NoSQL上面 ——UI展示

下一篇将会介绍框架流程


推荐阅读
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
  • 不会搭建大数据平台,我被老板优化了...
    不会,搭建,大数,据,平台,我 ... [详细]
  • 目录摘要SQL的现在NoSQL,NotOnlySQL要分布式,也要SQL总结引用摘要毫不夸张的说,关系数据库是企业软件系统的核心,企业形形色色信息行为的背后,都有关系数据库的支撑。 ... [详细]
  • 数据仓库中基本概念
    一、数据仓库数据仓库(DataWarehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合,用于支持管理人员的决策面向主题主题就是类型的意思。传统数 ... [详细]
  • 前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出, ... [详细]
  • ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES
    一、认识ElasticSearch是一个基于Lucene的开源搜索引擎,通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索,分析系统&# ... [详细]
  • 11月26日,由中国计算机协会(CCF)主办,CCF大数据专家委员会协办,CSDN承办的Hadoop与大数据技术大会(Hadoop&BigDataTechnology ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • 物联网、工业互联网大数据的特点-随着数据通讯成本的急剧下降,以及各种传感技术和智能设备的出现,从手环、共享出行、智能电表、环境监测设备到电梯、数控机床、挖掘机、工业生产线等都在源 ... [详细]
  • 基于,docker,快速,部署,多,需求,spark ... [详细]
  • 前面刚有AWS开战MongoDB,双方“隔空互呛”,这厢又曝出2亿+简历信息泄露——MongoDB的这场开年似乎“充实”得过分了些。长期以来,作为“最受欢迎的NoSQL数据库”,M ... [详细]
  • 未来几年,商业智能的大趋势介绍
    1.数据科学家将消亡熟悉数据分析将是普通业务人员的基本技能,能利用好数据价值去做规划的企业组织将更成功,忽略数据重要性的将被逐渐淘汰。2.云端商业智 ... [详细]
  • Spark面试题汇总大全
    1RDD简介RDD是Spark最基本也是最根本的数据抽象,它具备像MapReduce等数据流模型的容错性,并且允许开发人员在大型集群上执行基于内存的计 ... [详细]
  • 大数据开发笔记(一):HDFS介绍
    ✨大数据开发笔记推荐:大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试​本文详细介绍大数据hadoop生态圈各部分知识,包括不限 ... [详细]
  • 怎么快速学好大数据开发?
    新如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题,已成为热门大数据领域热门问题,以下是对新手如何学习大数据技术问题的解答! ... [详细]
author-avatar
sleeping22
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有