热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

宽带用户行为模式研究

转载自:http:www.hbtelecom.com.cndetail.asp?news_id78369_______________________________
转载自 :http://www.hbtelecom.com.cn/detail.asp?news_id=78369

_____________________________________________________________


  一、国内外研究现状

  虽然宽带用户渗透率不断增加,但是有关宽带用户行为的研究论文仍然是凤毛麟角。原因很简单,很难从运营商得到研究所需要的数据,大量的日志数据被认为是敏感数据而不能公开。

   目前,在国内的相关研究中,马力、 焦李成等在系统研究Internet的用户行为特征的基础上,从监测和分析的角度,给出了因特网用户行为的一种分类 方式及表示方式。刘培刚等基于国内外最新研究成果对电子商务中应用的web 挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题,给 出了基于web日志的客户群体模糊聚类算法及web页面聚类算法。棘 涌、陈恩红等人提供了一种用神经网络时Web用户的行为进行分析的方法。首先对 www服务器的日志文件进行分析,再进行会话划分,并从会话向量中拽出频繁数据集,以便选取合适的会话向量,进行规一化处理后生成模式向量,并采用 Kohonen的SOFM 模型进行聚类,最后生成用户聚类。总的来讲,国内的研究主要集中在理论探讨或从web服务的角度来进行用户行为分析。

   相比国内的研究,国外研究更注重实际应用,也比较系统和深入。很多国外研究从用户实际调查的角度,定性地给出了宽带用户的行为特征,比如  Pew Internet & American life进行的调查显示随着宽带进入家庭后,宽带用户的行为变化。同时,很多学者对电子商务 应用、近来颇受关注的p2p应用、宽带视频应用等由于宽带而兴起的新应用的用户访问特征进行了深入的研究,比如: D. Menásce and V. Almeida. 等人的《Scaling for E-business:technologies,  models, performance and capacity planning.》;C. Costa, I. Cunha,  A. Borges, C. Ramos, M. Rocha,J. Almeida, and B. Ribeiro-Neto等人的 《 Analyzing client interactivity in streaming media.》; 以及T. Hamada,  K. Chujo, T. Chujo, and X. Yang.等人的《 Peer-to- peer traffic in metro networks: analysis, modeling and policies.》。真正系统研究 用户行为特征的非常少,比如Humberto T. Marques Nt等人从运营商的角度,把宽带用户划分成两类,家庭和办公两类,分别分析两类用户 的会话级以及访问级的行为特征,计算了两类CMBG(用户的行为模式图)。

  二、本文所做的工作

  与以前的研究不同 的是,本文主要对客户端的流量分析包括对不同应用的多种请求特征分析。不仅分析用户产生的流量特征,特别还精确分析在宽带用户的一个会话期内用户对不同应 用的请求特征。同时,本文还对武汉宽带市场上宽带用户进行细分,分为:普通家庭宽带用户、公司宽带用户,针对不同类用户利用以上方法进行对比分析。

  三、结果分析

  1、计费方式。  

  从宽带用户总的应用分布来看,传统应用除www外,如ftp、telnet、pop3、smtp等比列逐步减少,一些新的应用如流媒体、P2P、游戏等比例不断增加,成为主要的服务。其中p2p占用了大量的出口带宽资源,特别是p2p下载和视频。可以给出两个建议:

   (1)由于宽带用户大量使用bt等p2p下载工具,占用大量的带宽资源,普通用户挤占高端用户带宽,导致出口流量价值下降,服务水平下降,为此作为运营 商可以考虑在出口进行p2p高峰时段控制;(2)另一方面,由于p2p视频应用的不断发展,使得p2p应用逐步运营成为可能,并且很容易摆脱运营商的限 制,所以作为运营商,要及时跟踪进展,利用网络优势,自己运营有效益的p2p增值应用。

  2、会话到达过程
在这一部分,我们主要是分析用户会话到达过程的特征。为了避免数据汇总造成的误差,我们选取了大量的用户会话到达率稳定时段,涵盖了一天中的不同时段,一星期中的不同天,包括周末。
我们发现用户会话发起间隔时间无论是家庭用户或公司用户都是呈现对数分布。普通家庭宽带用户的λ范围更小,说明在一天中公司用户通常在工作时间上网,而家庭用户上网次数频次更高。

  3、会话持续时间
为了避免数据的重叠,我们采用了不同天的数据来分析普通家庭和公司宽带用户的会话持续时间,分别给出了某一天的所有发起的会话分布特征,持续多天。

   我们发现普通家庭用户的会话持续时间可以通过对数分布精确的估计,然而,公司用户的会话持续时间对于主体部分最好利用复合对数分布,对于尾部则通过柏拉 图分布,分界点在12小时左右。我们估计这种行为反映了两种不同种类的用户:(1)在工作时候仍然挂在网上,(2)用户在网上工作很长时间,甚至离开工作 岗位仍挂在网上。值得注意的是,一个普通家庭用户会话持续时间为5到13小时,而一个公司用户平均持续时间为7到19小时。

  4、出、入流量
这 一部分分析用户每个会话中流入和流出的流量特征。我们发现无论普通家庭用户和公司用户的出入流量均很好地符合对数分布,分析结果表明,相对于家庭用户,公 司用户收到和发送更多的流量,也许与会话时间更长有关。并且流出流入的流量比在3—5的范围,与窄带相比小很多,可能与用户大量使用P2P应用有关。

  总之,相对于公司用户,普通住宅用户每天发起更多的会话,但会话平均时间更短,每次会话的流入和流出流量更少。

  5、用户请求模式   

   我们现在再来研究用户在一个会话中对不同应用的访问请求模式。我们的分析集中在常见应用。假定我们用户请求访问的服务具有内在不同特征,下一步我们就要 计算用户对每个服务访问的频率和在一个会话中在不同应用间转换的频率。我们的分析涵盖了六类典型的用户行为模式。由于处理空间的限制,我们选取至少在总会 话数种占3%的类别。

  在普通家庭和公司用户的工作流中,会话可以进一步地分为主要的两类超级类。一类会话主要有http支配,但也包 含一些其它的用户比如e-mail,及时消息和P2P服务。此超级类包含了普通家庭用户中的1、2、3类,公司用户中的1、2、3和4类。相比主要由 Http请求的类别,含有e-mail和聊天应用的用户在每次会话持续时间变长,流量变大,换句话说,用户在互联网上交流用了更多的时间。

  第二个超级类主要被P2P请求所支配。平均来看,他们持续时间更长,流量更大,远远超过由http所支配的类别。
值得注意的是,不论是普通家庭用户还是公司用户,应用的环回(应用又回到该类应用)概率非常大,换言之,用户经常重复使用同一类应用。

  四、结论

  主要研究结论如下:

   普通家庭用户和公司用户会话间隔时间、会话时间、流入流出流量呈对数分布。然而家庭用户会话到达率在白天较高,公司用户在一天的会话到达率变化很大。另 外,一个典型的公司用户会话时间较长,并且传输的数据流量更大。对于两类用户的应用请求模式研究结果显示,在每类用户中主要有两组用户,第一组主要使用传 统的internet服务,比如www,e-mail和及时消息等;第二组主要使用p2p应用,并且第二组会话时间相对较长,数据量也很大。
相关建议如下:

  1)引入分时计费产品,改善流量拥塞,扩充网络带宽资源;
  2)为提高流量价值,考虑流量计费方式。
  3)由于宽带用户大量使用bt等p2p下载工具,占用大量的带宽资源,普通用户挤占高端用户带宽,导致出口流量价值下降,服务水平下降,为此作为运营商可以考虑在出口进行p2p高峰时段控制;
  4)由于p2p视频应用的不断发展,使得p2p应用逐步运营成为可能,并且很容易摆脱运营商的限制。所以,作为运营商,要及时跟踪进展,利用网络优势,自己运营有效益的p2p增值应用。


        (课题承担单位:武汉市分公司数据维护中心)

湖北电信  
推荐阅读
  • 优化联通光猫DNS服务器设置
    本文详细介绍了如何为联通光猫配置DNS服务器地址,以提高网络解析效率和访问体验。通过智能线路解析功能,域名解析可以根据访问者的IP来源和类型进行差异化处理,从而实现更优的网络性能。 ... [详细]
  • 本文探讨了如何在发布 XenApp 应用时,通过命令行参数实现启动时的参数传递。特别介绍了静态和动态参数传递的方法,并详细解释了 ICA 文件中两种参数传递方式的区别及安全检查机制。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 微软Exchange服务器遭遇2022年版“千年虫”漏洞
    微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞,导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]
  • 本文介绍如何在现有网络中部署基于Linux系统的透明防火墙(网桥模式),以实现灵活的时间段控制、流量限制等功能。通过详细的步骤和配置说明,确保内部网络的安全性和稳定性。 ... [详细]
  • 通过Web界面管理Linux日志的解决方案
    本指南介绍了一种利用rsyslog、MariaDB和LogAnalyzer搭建集中式日志管理平台的方法,使用户可以通过Web界面查看和分析Linux系统的日志记录。此方案不仅适用于服务器环境,还提供了详细的步骤来确保系统的稳定性和安全性。 ... [详细]
  • 在本周的白板演练中,Apache Flink 的 PMC 成员及数据工匠首席技术官 Stephan Ewen 深入探讨了如何利用保存点功能进行流处理中的数据重新处理、错误修复、系统升级和 A/B 测试。本文将详细解释保存点的工作原理及其应用场景。 ... [详细]
  • Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]
  • DNN Community 和 Professional 版本的主要差异
    本文详细解析了 DotNetNuke (DNN) 的两种主要版本:Community 和 Professional。通过对比两者的功能和附加组件,帮助用户选择最适合其需求的版本。 ... [详细]
  • 尽管某些细分市场如WAN优化表现不佳,但全球运营商路由器和交换机市场持续增长。根据最新研究,该市场预计在2023年达到202亿美元的规模。 ... [详细]
  • ImmutableX Poised to Pioneer Web3 Gaming Revolution
    ImmutableX is set to spearhead the evolution of Web3 gaming, with its innovative technologies and strategic partnerships driving significant advancements in the industry. ... [详细]
  • 本文介绍如何在QT框架中使用QWebSocket和QTcpSocket实现SSL加密通信,涵盖单向认证设置。单向认证常见于Web通信场景,其中客户端验证服务端证书,而服务端不验证客户端证书。 ... [详细]
  • PHP 5.5.0rc1 发布:深入解析 Zend OPcache
    2013年5月9日,PHP官方发布了PHP 5.5.0rc1和PHP 5.4.15正式版,这两个版本均支持64位环境。本文将详细介绍Zend OPcache的功能及其在Windows环境下的配置与测试。 ... [详细]
  • 随着网络安全威胁的不断演变,电子邮件系统成为攻击者频繁利用的目标。本文详细探讨了电子邮件系统中的常见漏洞及其潜在风险,并提供了专业的防护建议。 ... [详细]
  • 信用评分卡的Python实现与评估
    本文介绍如何使用Python构建和评估信用评分卡模型,涵盖数据预处理、模型训练及验证指标选择。附带详细代码示例和视频教程链接。 ... [详细]
author-avatar
等待的承诺灬_231
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有