热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

大数据时代_大数据时代下的社交图谱与兴趣图谱

篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据时代下的社交图谱与兴趣图谱相关的知识,希望对你有一定的参考价值。如果把全球所有的移动电话和用户的通话记录放在一起,

篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据时代下的社交图谱与兴趣图谱相关的知识,希望对你有一定的参考价值。


如果把全球所有的移动电话和用户的通话记录放在一起,是大数据吗?

所有门户网站,几个大的门户网站等每天产生的新闻,是大数据吗?

第一个数据源是大数据。因为我们之间的通话、交往的过程,它是一个网络状的,是超线性增长的,并且我们通话内容是非常复杂的,具有复杂的数据结构,包括我们的时间及方方面面的算法。

第二如果只是每天产生的新闻,它不算大数据,因为这个量有限,每天也就是大概几十万、上百万条,而且每天增长也是有限的。但是,如果把用户的浏览记录甚至把新闻的内容,比如对这个文本做分解,把文本之间产生互相的联系的话,这就算大数据。

个性化推荐技术

个性化推荐技术可以带来非常大的效果上的提升。它最大的优势就在于新用户的转化率,尤其是新用户在头几个访问的时候,如果你能抓住他的兴趣,迅速给他推荐一些他感兴趣的产品,或者是感兴趣的信息,它的转化率将大大提升。

技术分享图片

在做社交图谱时,发现其比兴趣图谱要复杂的多,它的复杂其实来源于一个是人与人关系的复杂性。人跟产品之间的关系相对比较简单,我喜欢这个产品,我不喜欢这个产品,这个描述大概能描述你80%的情况。

但是人跟人之间的关系就很复杂,没有一个简单的或者清晰的模型去描述这个复杂性,或者人与人之间关系很难用单一纬度描述。第二人与人之间交互在网站上表现成文字,现在互相回帖或者互相说话等,这个语义的复杂性也不是现在计算机技术能够完全掌握,或者完全攻克的一个难题,所以语义的复杂性也带来描述人和人之间关系的复杂性。

兴趣图谱跟社交图谱的区别

兴趣图谱中的人群更多是一个生人的网络,大家来到兴趣图谱之前互相之间不太认识,依据兴趣来结合新的网络。但是,社交图谱更多是熟人的网络,尤其是强社交的关系,像大家现在用的微信,手机里的通讯录等等,这个是熟人的关系。不同人群它表现出的特点其实也不太一样。

社交图谱在黏性上和频度上都很高,但它在持久性上,有时候有的产品比较高,但是有的产品其实也没有那么高。兴趣图谱一般来说黏性和频度都没有那么高,但是它的持久性会比较好一些,因为兴趣一般都会是长期的兴趣。依据这样不同的特点,在我们做个性化推荐的时候可以有不同的一些考量。

如果你有上亿量级的用户,每个用户细分的兴趣大概有上千种,整个用户的兴趣。每个用户相对比较强的社交的关系有几百种。乘起来就会是一个非常大的数据量,也即我们会用几十万的维的向量描述一个人,甚至摆成一千量级的数据描述一个人,我们还要找人跟人之间的关系,在数据上就会是非常大的一个挑战。

技术分享图片

目前很多线上推荐系统是除融合兴趣图谱和社交图谱外,给用户一个引导,能够帮助用户发现它真正有价值的东西。

其实现在个性化推荐往往很难解决一个“惊喜”问题。主要要解决的就是帮助用户进一步探索他未知的,而且对他很有用的,能给他带来惊喜的推荐领域。


推荐阅读
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • 基于结构相似性的HOPC算法:多模态遥感影像配准方法及Matlab实现
    本文介绍了一种基于结构相似性的多模态遥感影像配准方法——HOPC算法,该算法通过相位一致性模型构建几何结构特征描述符,能够有效应对多模态影像间的非线性辐射差异。文章详细阐述了HOPC算法的原理、实验结果及其在多种遥感影像中的应用,并提供了相应的Matlab代码。 ... [详细]
  • 开发笔记:9.八大排序
    开发笔记:9.八大排序 ... [详细]
  • 解析SQL查询结果的排序问题及其解决方案
    本文探讨了为什么某些SQL查询返回的数据集未能按预期顺序排列,并提供了详细的解决方案,帮助开发者理解并解决这一常见问题。 ... [详细]
  • Windows 环境下重启 MySQL 服务的方法
    本文详细介绍了在 Windows 操作系统中如何正确地重启 MySQL 数据库服务,包括常见的权限问题及其解决方案。 ... [详细]
  • 深入解析Redis内存对象模型
    本文详细介绍了Redis内存对象模型的关键知识点,包括内存统计、内存分配、数据存储细节及优化策略。通过实际案例和专业分析,帮助读者全面理解Redis内存管理机制。 ... [详细]
  • 本文详细介绍Python编程的基础知识,涵盖从安装环境到编写简单程序的核心内容,并深入探讨网络编程的基本概念和实践。提供多种资源下载方式,帮助读者快速上手。 ... [详细]
  • CentOS 6.5 上安装 MySQL 5.7.23 的详细步骤
    本文详细介绍如何在 CentOS 6.5 系统上成功安装 MySQL 5.7.23,包括卸载旧版本、下载安装包、配置文件修改及启动服务等关键步骤。 ... [详细]
  • 本文介绍了数据库体系的基础知识,涵盖关系型数据库(如MySQL)和非关系型数据库(如MongoDB)的基本操作及高级功能。通过三个阶段的学习路径——基础、优化和部署,帮助读者全面掌握数据库的使用和管理。 ... [详细]
  • 深入理解K近邻分类算法:机器学习100天系列(26)
    本文详细介绍了K近邻分类算法的理论基础,探讨其工作原理、应用场景以及潜在的局限性。作为机器学习100天系列的一部分,旨在为读者提供全面且深入的理解。 ... [详细]
  • 本文详细介绍了如何在 MySQL 数据库中进行表结构的修改,包括添加字段、修改字段类型和重命名列名等操作,旨在为开发者提供实用的技术参考。 ... [详细]
  • ZooKeeper集群脑裂问题及其解决方案
    本文深入探讨了ZooKeeper集群中可能出现的脑裂问题,分析其成因,并提供了多种有效的解决方案,确保集群在高可用性环境下的稳定运行。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • Java 实现二维极点算法
    本文介绍了一种使用 Java 编程语言实现的二维极点算法。该算法用于从一组二维坐标中筛选出极点,适用于需要处理几何图形和空间数据的应用场景。文章不仅详细解释了算法的工作原理,还提供了完整的代码示例。 ... [详细]
  • 本次挑战涉及数组截断操作,初看似乎简单,但实际上考察了对数组切片方法的理解与应用。本文将详细解析该算法的实现逻辑,并提供多个示例以加深理解。 ... [详细]
author-avatar
GUOQIFENG_534
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有