热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

AdobeAnalytics和Webtrekk数据分析对比(下)

AdobeAnalytics和Webtrekk都是数据分析领域的巨擘,一个是美国市场第一,一个欧洲市场第一,都能提供世界一流的数字分析解决方案。我很有幸能有机会深入了解并应用这两种解决方案,

Adobe Analytics和Webtrekk都是数据分析领域的巨擘,一个是美国市场第一,一个欧洲市场第一,都能提供世界一流的数字分析解决方案。我很有幸能有机会深入了解并应用这两种解决方案,同时也深感数字分析领域的发展永远不缺概念,缺的是应用场景和价值提炼。本文将对这两种解决方案做深入剖析和对比。由于文章实在太长,我分为两部分,此文为下篇。上篇请点击《 Adobe Analytics和Webtrekk数字分析解决方案剖析和对比(上) 》。

三、严谨和科学的数据精神

(一) 数据挖掘算法

数据挖掘和网站分析是数据分析的两个不同领域,数据挖掘侧重于通过模型从海量数据中发现和挖掘未知知识,网站分析通常通过细分、趋势和转化进行价值提取。在之前我们的应用中,我们一直想将两种数据分析方法结合,并探索网站数据挖掘的相关方法;现在,这两种解决方案已经开始将数据挖掘的算法植入系统,并在分析系统中提供了数据挖掘洞察。

Adobe Analytics

Adobe Analytics的数据挖掘应用体现在Anomaly Detection(异常检测)报表,该报表的作用是通过对选定的数据集、时间进行数据运算,找到数据波动的最大值和最小值,当数据实际值超过该范围时形成预警。

Anomaly Detection本质上使用的是时间序列算法,核心是:

Holt Winters Multiplicative (Triple Exponential Smoothing)——霍尔特温特斯乘法(三重指数平滑法) Holt Winters Additive (Triple Exponential Smoothing)——霍尔特温特斯加法(三重指数平滑法) Holts Trend Corrected (Double Exponential Smoothing)——Holts趋势校正(双指数平滑法)

这三种算法实际上共同组成了温特斯季节指数平滑模型,其基本思想是把具体线性趋势、季节变动和随机变动的时间序列进行分解研究,并与指数平滑法相结合,分别对长期趋势(Ut)、趋势的增量(bt)和季节变动(Ft)做出估计,与指数平滑法结合起来的预测方法,可以同时处理趋势和季节性变化,并能将随机波动的影响适当地过滤掉,然后建立预测模型,因此,特别适用于包含趋势和季节变化的时间序列的预测问题。

但这个应用目前存在两个问题:

Anomaly Detection只能提供截止到昨天的数据检测报告。异常监测的本质不是告诉用户昨天发生了什么,而是当前发生了哪些异常,具体如何异常; 异常检测的作用仅仅局限于SiteCatalyst查看,如果能提供类似于邮件触发、短信或其他类型的触发提示,效果必然提升很多;

关于该功能的详细介绍,请查看《统计学在点击流数据中的应用范例——Adobe Analytics异常检测》。

Webtrekk

Webtrekk的数据挖掘算法的核心应用是关联分析,该模型可以应用到页面、站内外搜索词、产品、广告渠道。跟Adobe Analytics的异常检测的现成报表不同,Webtrekk的关联模型报表需要进行简单配置才能查看。通常我们在用数据挖掘工具做数据挖掘时会选择数据源、数据预处理、算法本身需要配置最低支持度、最低置信度和最大前项数等,同样在Webtrekk的关联分析配置中也需要进行配置:

关联分析的算法支持交叉销售算法和向上销售算法两种; 数据集都是采用Raw Data,时间最大只能选择一天; 分析规则上支持不同级别的页面、渠道、产品、广告、站内外搜索词的关联,即可以生成页面关联报表、站内外搜索词报表、广告渠道报表、产品报表; 支持高级配置功能。支持最小频繁度;选择向上销售时会需要确认向上销售的数据集时间;还支持网站分析里面的细分功能,比如我就需要看某个页面的关联效果,只需要过滤该页面即可。

webtrekk关联分析

webtrekk-渠道关联分析

Webtrekk的关联模型应用的范围非常广,它可以提供以下的数据价值洞察:

  用户搜索了站内A关键词之后通常会优化搜索哪个关键词?

  用户在看了A页面之后,通常还会看哪个页面?

  用户买了A产品之后,还会一起买哪个产品?下次又会买哪个产品?

  用户从A渠道进入网站之后,通常还会从哪个渠道再次进入?

实际上在所有的数据挖掘类算法中,规则提取类是最受业务应用关注的算法,原因是提取后的规则可以直接指导他们如何进行业务实践,因此实用性最强(所谓的规则提取类算法包括关联、回归、决策树等以直接目标为分析导向,提取能实现目标规则的算法,如购买A的用户下一次通常会购买B)。

尽管Webtrekk的这个算法很好,但问题在于数据集时间太短。通常情况下,我们会选择合适的样本量,数据太大意味着数据浪费,数据太小不能说明问题。一天的数据量有点小,很可能会有一些偶然性因素出现在结果中,如果能扩大到1周甚至是1个月的数据效果会更好。当然,更大的数据量意味着更多的数据处理需求和更长的时间,这个需要进行取舍。

(二) 更科学的数据洞察开始

有经验的数据分析师,在拿到数据的第一时间并不是开始进行数据分析和挖掘工作,而是先要看数据。

什么是看数据?

看数据就是对目前的整体样本进行数据评估以确认该数据需要如何进行下一步预处理(完整的数据分析流程包括需求处理、数据处理、专项分析、部署优化和项目总结,具体请见《如何建立落地型数据分析(挖掘)流程?》)。

如何看数据?

看数据就是要看数据的整体分布、数据趋势、数据极值、平均值、标准差和方差等,以此来判断该数据是否稳定并且判断是否存在异常值。对比Adobe Analytics和Webtrekk,Adobe Analytics仅在报表底部提供了数据汇总功能,相比之下,Webtrekk做的可圈可点:

webtrekk-科学报表

提供了更多的整体数据查看选项。包括平均值、最大值、最小值、汇总、页面内数据汇总等,通过这些指标,可以一眼看到所选择的报表中数据的分布情况,结合顶部的数据趋势等图形可以有效判断数据分布。 提供了针对每天数据的提示功能。包括高亮或柱形图,日常我们在Excel中做数据汇总时,这种表示方法是基本的标注数据关注度的方法,如果把这个表格做成Dashboard直接发送给老板,老板会更容易在一堆数据中发现重点标注的数据;另外我们在自己做数据时也会非常容易发现数据的异常值。


推荐阅读
  • K-均值聚类算法是一种经典的划分方法,广泛应用于数据挖掘和机器学习领域。该算法通过将数据集划分为多个互斥的簇,确保每个对象仅归属于一个簇。然而,这种严格的归属要求忽略了潜在的离群点和数据的复杂性,限制了其在某些场景下的适用性。为了提高算法的鲁棒性和灵活性,研究者们提出了多种改进方法,如引入模糊隶属度和基于密度的聚类技术。这些改进不仅提升了算法的性能,还扩展了其在实际问题中的应用范围。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 业务团队与独立团队在数据分析领域的效能对比:谁更胜一筹?
    业务团队与独立团队在数据分析领域的效能对比:谁更胜一筹? ... [详细]
  • 探索聚类分析中的K-Means与DBSCAN算法及其应用
    聚类分析是一种用于解决样本或特征分类问题的统计分析方法,也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分,适用于球形分布的数据集;而DBSCAN算法则基于密度进行聚类,能够有效识别任意形状的簇,并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析,本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]
  • 本文探讨了线性表中元素的删除方法,包括顺序表和链表的不同实现策略,以及这些策略在实际应用中的性能分析。 ... [详细]
  • Python网络编程:深入探讨TCP粘包问题及解决方案
    本文详细探讨了TCP协议下的粘包现象及其产生的原因,并提供了通过自定义报头解决粘包问题的具体实现方案。同时,对比了TCP与UDP协议在数据传输上的不同特性。 ... [详细]
  • 汇编语言标识符和表达式(四)(表达式与符号定义语句)
    7、表达式表达式是程序设计课程里的一个重要的基本概念,它可由运算符、操作符、括号、常量和一些符号连在一起的式子。在汇编语言中,表达式分为:数值表达式和地址表达式。(1)进制伪指令R ... [详细]
  • 对于非计算机专业背景的开发者而言,如何快速掌握.NET基础知识以应对技术面试是一个挑战。本文将提供一系列实用建议,帮助读者在短时间内提高.NET基础水平。 ... [详细]
  • 本文介绍了使用Python和C语言编写程序来计算一个给定数值的平方根的方法。通过迭代算法,我们能够精确地得到所需的结果。 ... [详细]
  • 本文提供了一个关于AC自动机(Aho-Corasick Algorithm)的详细解析与实现方法,特别针对P3796题目进行了深入探讨。文章不仅涵盖了AC自动机的基本概念,还重点讲解了如何通过构建失败指针(fail pointer)来提高字符串匹配效率。 ... [详细]
  • 本文提供了一个详尽的前端开发资源列表,涵盖了从基础入门到高级应用的各个方面,包括HTML5、CSS3、JavaScript框架及库、移动开发、API接口、工具与插件等。 ... [详细]
  • 本文介绍了在达梦数据库(DM7)中通过两种方法实现两表之间的联接更新操作,包括使用子查询的更新语句和MERGE语句的具体应用。 ... [详细]
  • SSE图像算法优化系列三:超高速导向滤波实现过程纪要(欢迎挑战)
    自从何凯明提出导向滤波后,因为其算法的简单性和有效性,该算法得到了广泛的应用,以至于新版的matlab都将其作为标准自带的函数之一了&#x ... [详细]
  • 解析Java虚拟机HotSpot中的GC算法实现
    本文探讨了Java虚拟机(JVM)中HotSpot实现的垃圾回收(GC)算法,重点介绍了根节点枚举、安全点及安全区域的概念和技术细节,以及这些机制如何影响GC的效率和准确性。 ... [详细]
  • 自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析
    目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]
author-avatar
rongrong_102077
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有