热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

宽带用户行为模式研究

转载自:http:www.hbtelecom.com.cndetail.asp?news_id78369_______________________________
转载自 :http://www.hbtelecom.com.cn/detail.asp?news_id=78369

_____________________________________________________________


  一、国内外研究现状

  虽然宽带用户渗透率不断增加,但是有关宽带用户行为的研究论文仍然是凤毛麟角。原因很简单,很难从运营商得到研究所需要的数据,大量的日志数据被认为是敏感数据而不能公开。

   目前,在国内的相关研究中,马力、 焦李成等在系统研究Internet的用户行为特征的基础上,从监测和分析的角度,给出了因特网用户行为的一种分类 方式及表示方式。刘培刚等基于国内外最新研究成果对电子商务中应用的web 挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题,给 出了基于web日志的客户群体模糊聚类算法及web页面聚类算法。棘 涌、陈恩红等人提供了一种用神经网络时Web用户的行为进行分析的方法。首先对 www服务器的日志文件进行分析,再进行会话划分,并从会话向量中拽出频繁数据集,以便选取合适的会话向量,进行规一化处理后生成模式向量,并采用 Kohonen的SOFM 模型进行聚类,最后生成用户聚类。总的来讲,国内的研究主要集中在理论探讨或从web服务的角度来进行用户行为分析。

   相比国内的研究,国外研究更注重实际应用,也比较系统和深入。很多国外研究从用户实际调查的角度,定性地给出了宽带用户的行为特征,比如  Pew Internet & American life进行的调查显示随着宽带进入家庭后,宽带用户的行为变化。同时,很多学者对电子商务 应用、近来颇受关注的p2p应用、宽带视频应用等由于宽带而兴起的新应用的用户访问特征进行了深入的研究,比如: D. Menásce and V. Almeida. 等人的《Scaling for E-business:technologies,  models, performance and capacity planning.》;C. Costa, I. Cunha,  A. Borges, C. Ramos, M. Rocha,J. Almeida, and B. Ribeiro-Neto等人的 《 Analyzing client interactivity in streaming media.》; 以及T. Hamada,  K. Chujo, T. Chujo, and X. Yang.等人的《 Peer-to- peer traffic in metro networks: analysis, modeling and policies.》。真正系统研究 用户行为特征的非常少,比如Humberto T. Marques Nt等人从运营商的角度,把宽带用户划分成两类,家庭和办公两类,分别分析两类用户 的会话级以及访问级的行为特征,计算了两类CMBG(用户的行为模式图)。

  二、本文所做的工作

  与以前的研究不同 的是,本文主要对客户端的流量分析包括对不同应用的多种请求特征分析。不仅分析用户产生的流量特征,特别还精确分析在宽带用户的一个会话期内用户对不同应 用的请求特征。同时,本文还对武汉宽带市场上宽带用户进行细分,分为:普通家庭宽带用户、公司宽带用户,针对不同类用户利用以上方法进行对比分析。

  三、结果分析

  1、计费方式。  

  从宽带用户总的应用分布来看,传统应用除www外,如ftp、telnet、pop3、smtp等比列逐步减少,一些新的应用如流媒体、P2P、游戏等比例不断增加,成为主要的服务。其中p2p占用了大量的出口带宽资源,特别是p2p下载和视频。可以给出两个建议:

   (1)由于宽带用户大量使用bt等p2p下载工具,占用大量的带宽资源,普通用户挤占高端用户带宽,导致出口流量价值下降,服务水平下降,为此作为运营 商可以考虑在出口进行p2p高峰时段控制;(2)另一方面,由于p2p视频应用的不断发展,使得p2p应用逐步运营成为可能,并且很容易摆脱运营商的限 制,所以作为运营商,要及时跟踪进展,利用网络优势,自己运营有效益的p2p增值应用。

  2、会话到达过程
在这一部分,我们主要是分析用户会话到达过程的特征。为了避免数据汇总造成的误差,我们选取了大量的用户会话到达率稳定时段,涵盖了一天中的不同时段,一星期中的不同天,包括周末。
我们发现用户会话发起间隔时间无论是家庭用户或公司用户都是呈现对数分布。普通家庭宽带用户的λ范围更小,说明在一天中公司用户通常在工作时间上网,而家庭用户上网次数频次更高。

  3、会话持续时间
为了避免数据的重叠,我们采用了不同天的数据来分析普通家庭和公司宽带用户的会话持续时间,分别给出了某一天的所有发起的会话分布特征,持续多天。

   我们发现普通家庭用户的会话持续时间可以通过对数分布精确的估计,然而,公司用户的会话持续时间对于主体部分最好利用复合对数分布,对于尾部则通过柏拉 图分布,分界点在12小时左右。我们估计这种行为反映了两种不同种类的用户:(1)在工作时候仍然挂在网上,(2)用户在网上工作很长时间,甚至离开工作 岗位仍挂在网上。值得注意的是,一个普通家庭用户会话持续时间为5到13小时,而一个公司用户平均持续时间为7到19小时。

  4、出、入流量
这 一部分分析用户每个会话中流入和流出的流量特征。我们发现无论普通家庭用户和公司用户的出入流量均很好地符合对数分布,分析结果表明,相对于家庭用户,公 司用户收到和发送更多的流量,也许与会话时间更长有关。并且流出流入的流量比在3—5的范围,与窄带相比小很多,可能与用户大量使用P2P应用有关。

  总之,相对于公司用户,普通住宅用户每天发起更多的会话,但会话平均时间更短,每次会话的流入和流出流量更少。

  5、用户请求模式   

   我们现在再来研究用户在一个会话中对不同应用的访问请求模式。我们的分析集中在常见应用。假定我们用户请求访问的服务具有内在不同特征,下一步我们就要 计算用户对每个服务访问的频率和在一个会话中在不同应用间转换的频率。我们的分析涵盖了六类典型的用户行为模式。由于处理空间的限制,我们选取至少在总会 话数种占3%的类别。

  在普通家庭和公司用户的工作流中,会话可以进一步地分为主要的两类超级类。一类会话主要有http支配,但也包 含一些其它的用户比如e-mail,及时消息和P2P服务。此超级类包含了普通家庭用户中的1、2、3类,公司用户中的1、2、3和4类。相比主要由 Http请求的类别,含有e-mail和聊天应用的用户在每次会话持续时间变长,流量变大,换句话说,用户在互联网上交流用了更多的时间。

  第二个超级类主要被P2P请求所支配。平均来看,他们持续时间更长,流量更大,远远超过由http所支配的类别。
值得注意的是,不论是普通家庭用户还是公司用户,应用的环回(应用又回到该类应用)概率非常大,换言之,用户经常重复使用同一类应用。

  四、结论

  主要研究结论如下:

   普通家庭用户和公司用户会话间隔时间、会话时间、流入流出流量呈对数分布。然而家庭用户会话到达率在白天较高,公司用户在一天的会话到达率变化很大。另 外,一个典型的公司用户会话时间较长,并且传输的数据流量更大。对于两类用户的应用请求模式研究结果显示,在每类用户中主要有两组用户,第一组主要使用传 统的internet服务,比如www,e-mail和及时消息等;第二组主要使用p2p应用,并且第二组会话时间相对较长,数据量也很大。
相关建议如下:

  1)引入分时计费产品,改善流量拥塞,扩充网络带宽资源;
  2)为提高流量价值,考虑流量计费方式。
  3)由于宽带用户大量使用bt等p2p下载工具,占用大量的带宽资源,普通用户挤占高端用户带宽,导致出口流量价值下降,服务水平下降,为此作为运营商可以考虑在出口进行p2p高峰时段控制;
  4)由于p2p视频应用的不断发展,使得p2p应用逐步运营成为可能,并且很容易摆脱运营商的限制。所以,作为运营商,要及时跟踪进展,利用网络优势,自己运营有效益的p2p增值应用。


        (课题承担单位:武汉市分公司数据维护中心)

湖北电信  
推荐阅读
  • 本文介绍如何在现有网络中部署基于Linux系统的透明防火墙(网桥模式),以实现灵活的时间段控制、流量限制等功能。通过详细的步骤和配置说明,确保内部网络的安全性和稳定性。 ... [详细]
  • 通过Web界面管理Linux日志的解决方案
    本指南介绍了一种利用rsyslog、MariaDB和LogAnalyzer搭建集中式日志管理平台的方法,使用户可以通过Web界面查看和分析Linux系统的日志记录。此方案不仅适用于服务器环境,还提供了详细的步骤来确保系统的稳定性和安全性。 ... [详细]
  • libsodium 1.0.15 发布:引入重大不兼容更新
    最新发布的 libsodium 1.0.15 版本带来了若干不兼容的变更,其中包括默认密码散列算法的更改和其他重要调整。 ... [详细]
  • 本文探讨了如何在日常工作中通过优化效率和深入研究核心技术,将技术和知识转化为实际收益。文章结合个人经验,分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法,帮助读者更好地实现技术变现。 ... [详细]
  • 优化联通光猫DNS服务器设置
    本文详细介绍了如何为联通光猫配置DNS服务器地址,以提高网络解析效率和访问体验。通过智能线路解析功能,域名解析可以根据访问者的IP来源和类型进行差异化处理,从而实现更优的网络性能。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 本文详细探讨了Java中的24种设计模式及其应用,并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类,帮助开发者更好地理解和应用这些模式,提升代码质量和可维护性。 ... [详细]
  • 网络攻防实战:从HTTP到HTTPS的演变
    本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程,探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]
  • 本文深入探讨了Linux系统中网卡绑定(bonding)的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡,实现网络冗余、带宽聚合和负载均衡,在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]
  • 机器学习中的相似度度量与模型优化
    本文探讨了机器学习中常见的相似度度量方法,包括余弦相似度、欧氏距离和马氏距离,并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外,文章还涵盖了模型评估的各种方法和指标,以及不同分类器的工作原理和应用场景。 ... [详细]
  • 从零开始构建完整手机站:Vue CLI 3 实战指南(第一部分)
    本系列教程将引导您使用 Vue CLI 3 构建一个功能齐全的移动应用。我们将深入探讨项目中涉及的每一个知识点,并确保这些内容与实际工作中的需求紧密结合。 ... [详细]
  • MySQL 数据库迁移指南:从本地到远程及磁盘间迁移
    本文详细介绍了如何在不同场景下进行 MySQL 数据库的迁移,包括从一个硬盘迁移到另一个硬盘、从一台计算机迁移到另一台计算机,以及解决迁移过程中可能遇到的问题。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 微软Exchange服务器遭遇2022年版“千年虫”漏洞
    微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞,导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]
  • 信用评分卡的Python实现与评估
    本文介绍如何使用Python构建和评估信用评分卡模型,涵盖数据预处理、模型训练及验证指标选择。附带详细代码示例和视频教程链接。 ... [详细]
author-avatar
等待的承诺灬_231
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有