热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

宽带用户行为模式研究

转载自:http:www.hbtelecom.com.cndetail.asp?news_id78369_______________________________
转载自 :http://www.hbtelecom.com.cn/detail.asp?news_id=78369

_____________________________________________________________


  一、国内外研究现状

  虽然宽带用户渗透率不断增加,但是有关宽带用户行为的研究论文仍然是凤毛麟角。原因很简单,很难从运营商得到研究所需要的数据,大量的日志数据被认为是敏感数据而不能公开。

   目前,在国内的相关研究中,马力、 焦李成等在系统研究Internet的用户行为特征的基础上,从监测和分析的角度,给出了因特网用户行为的一种分类 方式及表示方式。刘培刚等基于国内外最新研究成果对电子商务中应用的web 挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题,给 出了基于web日志的客户群体模糊聚类算法及web页面聚类算法。棘 涌、陈恩红等人提供了一种用神经网络时Web用户的行为进行分析的方法。首先对 www服务器的日志文件进行分析,再进行会话划分,并从会话向量中拽出频繁数据集,以便选取合适的会话向量,进行规一化处理后生成模式向量,并采用 Kohonen的SOFM 模型进行聚类,最后生成用户聚类。总的来讲,国内的研究主要集中在理论探讨或从web服务的角度来进行用户行为分析。

   相比国内的研究,国外研究更注重实际应用,也比较系统和深入。很多国外研究从用户实际调查的角度,定性地给出了宽带用户的行为特征,比如  Pew Internet & American life进行的调查显示随着宽带进入家庭后,宽带用户的行为变化。同时,很多学者对电子商务 应用、近来颇受关注的p2p应用、宽带视频应用等由于宽带而兴起的新应用的用户访问特征进行了深入的研究,比如: D. Menásce and V. Almeida. 等人的《Scaling for E-business:technologies,  models, performance and capacity planning.》;C. Costa, I. Cunha,  A. Borges, C. Ramos, M. Rocha,J. Almeida, and B. Ribeiro-Neto等人的 《 Analyzing client interactivity in streaming media.》; 以及T. Hamada,  K. Chujo, T. Chujo, and X. Yang.等人的《 Peer-to- peer traffic in metro networks: analysis, modeling and policies.》。真正系统研究 用户行为特征的非常少,比如Humberto T. Marques Nt等人从运营商的角度,把宽带用户划分成两类,家庭和办公两类,分别分析两类用户 的会话级以及访问级的行为特征,计算了两类CMBG(用户的行为模式图)。

  二、本文所做的工作

  与以前的研究不同 的是,本文主要对客户端的流量分析包括对不同应用的多种请求特征分析。不仅分析用户产生的流量特征,特别还精确分析在宽带用户的一个会话期内用户对不同应 用的请求特征。同时,本文还对武汉宽带市场上宽带用户进行细分,分为:普通家庭宽带用户、公司宽带用户,针对不同类用户利用以上方法进行对比分析。

  三、结果分析

  1、计费方式。  

  从宽带用户总的应用分布来看,传统应用除www外,如ftp、telnet、pop3、smtp等比列逐步减少,一些新的应用如流媒体、P2P、游戏等比例不断增加,成为主要的服务。其中p2p占用了大量的出口带宽资源,特别是p2p下载和视频。可以给出两个建议:

   (1)由于宽带用户大量使用bt等p2p下载工具,占用大量的带宽资源,普通用户挤占高端用户带宽,导致出口流量价值下降,服务水平下降,为此作为运营 商可以考虑在出口进行p2p高峰时段控制;(2)另一方面,由于p2p视频应用的不断发展,使得p2p应用逐步运营成为可能,并且很容易摆脱运营商的限 制,所以作为运营商,要及时跟踪进展,利用网络优势,自己运营有效益的p2p增值应用。

  2、会话到达过程
在这一部分,我们主要是分析用户会话到达过程的特征。为了避免数据汇总造成的误差,我们选取了大量的用户会话到达率稳定时段,涵盖了一天中的不同时段,一星期中的不同天,包括周末。
我们发现用户会话发起间隔时间无论是家庭用户或公司用户都是呈现对数分布。普通家庭宽带用户的λ范围更小,说明在一天中公司用户通常在工作时间上网,而家庭用户上网次数频次更高。

  3、会话持续时间
为了避免数据的重叠,我们采用了不同天的数据来分析普通家庭和公司宽带用户的会话持续时间,分别给出了某一天的所有发起的会话分布特征,持续多天。

   我们发现普通家庭用户的会话持续时间可以通过对数分布精确的估计,然而,公司用户的会话持续时间对于主体部分最好利用复合对数分布,对于尾部则通过柏拉 图分布,分界点在12小时左右。我们估计这种行为反映了两种不同种类的用户:(1)在工作时候仍然挂在网上,(2)用户在网上工作很长时间,甚至离开工作 岗位仍挂在网上。值得注意的是,一个普通家庭用户会话持续时间为5到13小时,而一个公司用户平均持续时间为7到19小时。

  4、出、入流量
这 一部分分析用户每个会话中流入和流出的流量特征。我们发现无论普通家庭用户和公司用户的出入流量均很好地符合对数分布,分析结果表明,相对于家庭用户,公 司用户收到和发送更多的流量,也许与会话时间更长有关。并且流出流入的流量比在3—5的范围,与窄带相比小很多,可能与用户大量使用P2P应用有关。

  总之,相对于公司用户,普通住宅用户每天发起更多的会话,但会话平均时间更短,每次会话的流入和流出流量更少。

  5、用户请求模式   

   我们现在再来研究用户在一个会话中对不同应用的访问请求模式。我们的分析集中在常见应用。假定我们用户请求访问的服务具有内在不同特征,下一步我们就要 计算用户对每个服务访问的频率和在一个会话中在不同应用间转换的频率。我们的分析涵盖了六类典型的用户行为模式。由于处理空间的限制,我们选取至少在总会 话数种占3%的类别。

  在普通家庭和公司用户的工作流中,会话可以进一步地分为主要的两类超级类。一类会话主要有http支配,但也包 含一些其它的用户比如e-mail,及时消息和P2P服务。此超级类包含了普通家庭用户中的1、2、3类,公司用户中的1、2、3和4类。相比主要由 Http请求的类别,含有e-mail和聊天应用的用户在每次会话持续时间变长,流量变大,换句话说,用户在互联网上交流用了更多的时间。

  第二个超级类主要被P2P请求所支配。平均来看,他们持续时间更长,流量更大,远远超过由http所支配的类别。
值得注意的是,不论是普通家庭用户还是公司用户,应用的环回(应用又回到该类应用)概率非常大,换言之,用户经常重复使用同一类应用。

  四、结论

  主要研究结论如下:

   普通家庭用户和公司用户会话间隔时间、会话时间、流入流出流量呈对数分布。然而家庭用户会话到达率在白天较高,公司用户在一天的会话到达率变化很大。另 外,一个典型的公司用户会话时间较长,并且传输的数据流量更大。对于两类用户的应用请求模式研究结果显示,在每类用户中主要有两组用户,第一组主要使用传 统的internet服务,比如www,e-mail和及时消息等;第二组主要使用p2p应用,并且第二组会话时间相对较长,数据量也很大。
相关建议如下:

  1)引入分时计费产品,改善流量拥塞,扩充网络带宽资源;
  2)为提高流量价值,考虑流量计费方式。
  3)由于宽带用户大量使用bt等p2p下载工具,占用大量的带宽资源,普通用户挤占高端用户带宽,导致出口流量价值下降,服务水平下降,为此作为运营商可以考虑在出口进行p2p高峰时段控制;
  4)由于p2p视频应用的不断发展,使得p2p应用逐步运营成为可能,并且很容易摆脱运营商的限制。所以,作为运营商,要及时跟踪进展,利用网络优势,自己运营有效益的p2p增值应用。


        (课题承担单位:武汉市分公司数据维护中心)

湖北电信  
推荐阅读
  • 本文探讨了MariaDB在当前数据库市场中的地位和挑战,分析其可能面临的困境,并提出了对未来发展的几点看法。 ... [详细]
  • libsodium 1.0.15 发布:引入重大不兼容更新
    最新发布的 libsodium 1.0.15 版本带来了若干不兼容的变更,其中包括默认密码散列算法的更改和其他重要调整。 ... [详细]
  • 本题探讨如何通过最大流算法解决农场排水系统的设计问题。题目要求计算从水源点到汇合点的最大水流速率,使用经典的EK(Edmonds-Karp)和Dinic算法进行求解。 ... [详细]
  • 深入解析 Apache Shiro 安全框架架构
    本文详细介绍了 Apache Shiro,一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作,使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API,同时确保高度的安全性和灵活性。 ... [详细]
  • 机器学习中的相似度度量与模型优化
    本文探讨了机器学习中常见的相似度度量方法,包括余弦相似度、欧氏距离和马氏距离,并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外,文章还涵盖了模型评估的各种方法和指标,以及不同分类器的工作原理和应用场景。 ... [详细]
  • 本文介绍如何通过创建替代插入触发器,使对视图的插入操作能够正确更新相关的基本表。涉及的表包括:飞机(Aircraft)、员工(Employee)和认证(Certification)。 ... [详细]
  • 本文探讨了 C++ 中普通数组和标准库类型 vector 的初始化方法。普通数组具有固定长度,而 vector 是一种可扩展的容器,允许动态调整大小。文章详细介绍了不同初始化方式及其应用场景,并提供了代码示例以加深理解。 ... [详细]
  • 高效解决应用崩溃问题!友盟新版错误分析工具全面升级
    友盟推出的最新版错误分析工具,专为移动开发者设计,提供强大的Crash收集与分析功能。该工具能够实时监控App运行状态,快速发现并修复错误,显著提升应用的稳定性和用户体验。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 解决Windows 10无法正确加载ICA文件的问题:设置Citrix Receiver为默认打开程序
    当在Windows 10系统中遇到无法正确加载ICA文件的情况时,可以通过下载并安装Citrix Receiver,并将其设置为ICA文件的默认打开方式来解决问题。具体操作步骤包括找到ICA文件,选择合适的打开程序路径(通常是C:\Program Files (x86)\Citrix\ICA Client\wfcrun32.exe),并确保该程序被设为始终使用。 ... [详细]
  • 基于KVM的SRIOV直通配置及性能测试
    SRIOV介绍、VF直通配置,以及包转发率性能测试小慢哥的原创文章,欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 本文介绍如何在现有网络中部署基于Linux系统的透明防火墙(网桥模式),以实现灵活的时间段控制、流量限制等功能。通过详细的步骤和配置说明,确保内部网络的安全性和稳定性。 ... [详细]
  • 本文详细介绍了macOS系统的核心组件,包括如何管理其安全特性——系统完整性保护(SIP),并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说,了解这些信息有助于更好地管理和优化系统性能。 ... [详细]
  • 2023年京东Android面试真题解析与经验分享
    本文由一位拥有6年Android开发经验的工程师撰写,详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]
author-avatar
等待的承诺灬_231
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有