热门标签 | HotTags
当前位置:  开发笔记 > 运维 > 正文

HadoopPigUv

UV计算的方式,有好几种处理方式,粗略计算的方式有ip,或者服务器下发一个id,如百度用的好像是BDUSS或者BAIDUID之类的但是要计算手机的用户的UV好像比PC上面复杂一点,这得感谢很多山寨厂商,并且各种平台,还有用户权限很多因素。如Android有的版本

UV计算的方式,有好几种处理方式,粗略计算的方式有 ip, 或者服务器下发一个 id,如百度用的好像是 BDUSS或者BAIDUID之类的 但是要计算手机的用户的UV好像比PC上面复杂一点,这得感谢很多山寨厂商,并且各种平台,还有用户权限很多因素。 如 Android有的版本

UV计算的方式,有好几种处理方式,粗略计算的方式有 ip, 或者服务器下发一个 id,如百度用的好像是 BDUSS或者BAIDUID之类的
但是要计算手机的用户的UV好像比PC上面复杂一点,这得感谢很多山寨厂商,并且各种平台,还有用户权限很多因素。
如 Android有的版本如果要获取用户的 mac或者imei之类的,必须用户授权,ios平台的mac和openudid之类的,也会有这种情况
计算UV的标准,分平台,Android是用mac+imei,而ios是用 mac+openudid。

以android平台分例,会存在如下四种情况

MACIMEI
A1
1
A
B2
C
3
D4

从上面的例子可以看出存在如下几种情况
1. 有mac 并且有imei
2. 有mac, 无imei
3. 无mac, 有imei
4. 无mac,无imei

计算uv的方法很简单,基本思路如下
1. 先找出有mac并且有imei的做为集合A
2. 找出MAC非空的集合标记为B
3. 找出MAC为空的集合标记为C 4. 用B LEFT JOIN A BY MAC得到集合D
5. FILTER D by imei IS NULL得到集合E 6. 用C LEFT JOIN A BY imei 得到集合F
7. FILTER F by mac IS NULL 得到集合G 8. UNIQUESET = UNION G, E, A

按照上面的计算步骤,用pig实现如下

    A = FILTER UVSET BY (mac is not null) AND (imei is not null);
    B = FILTER UVSET BY (mac is not null);
    C = FILTER UVSET BY (mac is null);
    D = JOIN B BY mac LEFT OUTER, A BY mac;
    E = FILTER D by (A::mac is null);
    E1 = FOREACH E GENERATE B::mac as mac, B::imei as imei;
    F = JOIN C BY imei LEFT OUTER, A BY imei;
    G = FILTER F BY (A::imei is null);
    G1 = FOREACH G GENERATE G::mac as mac, G::imei as imei;
    UNIQUESET = UNION G1, E1, A;
    TMPSET = GROUP UNIQUESET ALL;
    OUTRES = FOREACH TMPSET GENERATE COUNT(UNIQUESET);
    DUMP OUTRES;
推荐阅读
  • 探索百度WebFE团队打造的强大HTML5上传插件Web Uploader
    本文将详细介绍由百度WebFE团队开发的Web Uploader,这是一款集成了HTML5与Flash技术的上传组件,以其卓越的用户体验和强大的功能著称。 ... [详细]
  • Fiddler 安装与配置指南
    本文详细介绍了Fiddler的安装步骤及配置方法,旨在帮助用户顺利抓取用户Token。文章还涵盖了一些常见问题的解决方案,以确保安装过程顺利。 ... [详细]
  • 新浪微博热搜暂停更新;即刻APP回归;Android 11 Beta版发布 | 科技新闻速递
    为您带来最新的科技资讯,涵盖社交媒体动态、软件更新及行业重大事件。CSDN携手您共同关注科技前沿。 ... [详细]
  • 默认情况下,Git 使用 Nano 编辑器进行提交信息的编辑,但如果您更喜欢使用 Vim,可以通过简单的配置更改来实现这一变化。本文将指导您如何通过修改全局配置文件来设置 Vim 作为默认的 Git 提交编辑器。 ... [详细]
  • 网络流24题——试题库问题
    题目描述:假设一个试题库中有n道试题。每道试题都标明了所属类别。同一道题可能有多个类别属性。现要从题库中抽取m道题组成试卷。并要求试卷包含指定类型的试题。试设计一个满足要求的组卷算 ... [详细]
  • 本文探讨了程序员这一职业的本质,认为他们是专注于问题解决的专业人士。文章深入分析了他们的日常工作状态、个人品质以及面对挑战时的态度,强调了编程不仅是一项技术活动,更是个人成长和精神修炼的过程。 ... [详细]
  • 在1995年,Simon Plouffe 发现了一种特殊的求和方法来表示某些常数。两年后,Bailey 和 Borwein 在他们的论文中发表了这一发现,这种方法被命名为 Bailey-Borwein-Plouffe (BBP) 公式。该问题要求计算圆周率 π 的第 n 个十六进制数字。 ... [详细]
  • 2023年,Android开发前景如何?25岁还能转行吗?
    近期,关于Android开发行业的讨论在多个平台上热度不减,许多人担忧其未来发展。本文将探讨当前Android开发市场的现状、薪资水平及职业选择建议。 ... [详细]
  • 二维码的实现与应用
    本文介绍了二维码的基本概念、分类及其优缺点,并详细描述了如何使用Java编程语言结合第三方库(如ZXing和qrcode.jar)来实现二维码的生成与解析。 ... [详细]
  • 本文详细介绍了C++中的构造函数,包括其定义、特点以及如何通过构造函数进行对象的初始化。此外,还探讨了转换构造函数的概念及其在不同情境下的应用,以及如何避免不必要的隐式类型转换。 ... [详细]
  • 本文详细介绍了iOS应用的生命周期,包括各个状态及其转换过程中的关键方法调用。 ... [详细]
  • 探讨符合特定需求的个人网盘选择,包括分享功能、WebDAV支持及长期稳定性等。 ... [详细]
  • 本文通过一个具体的实例,介绍如何利用TensorFlow框架来计算神经网络模型在多分类任务中的Top-K准确率。代码中包含了随机种子设置、模拟预测结果生成、真实标签生成以及准确率计算等步骤。 ... [详细]
  • HTML前端开发:UINavigationController与页面间数据传递详解
    本文详细介绍了如何在HTML前端开发中利用UINavigationController进行页面管理和数据传递,适合初学者和有一定基础的开发者学习。 ... [详细]
  • PHP面试题精选及答案解析
    本文精选了新浪PHP笔试题及最新的PHP面试题,并提供了详细的答案解析,帮助求职者更好地准备PHP相关的面试。 ... [详细]
author-avatar
AAAAaaaa叶子
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有