热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

不单单是人格测试小游戏,大数据也能识别人格

本文来自微信公众号:严肃的人口学八卦(ID:renkou8gua),作者:胡文波,责编:李婷,图编:胡文波,题图来自视觉中国怕是每个人都玩过人格测试类的小游戏,从纸媒时代意林上的心

本文来自微信公众号:严肃的人口学八卦(ID:renkou8gua),作者:胡文波,责编:李婷,图编:胡文波,题图来自视觉中国

怕是每个人都玩过人格测试类的小游戏,从纸媒时代意林上的心理测试题大全,到如今各种朋友圈刷屏的人格类型小程序,高质量人类们在对自己的人格特征这一块探究的欲望从未衰减,被割的韭菜也是一茬又一茬。

最近一个爆款人格测试当属网易云音乐前几个月推出的“人格主导色”,而且也上了微博热搜,阅读量达3.3亿,讨论9万,可谓是狠狠地抓住了流量收割密码。

虽然近些年来人格测试小游戏各种形式层出不穷,但究其本质来看,可以大致分为两种:一种是让用户回答和自身相关的陈述题的相符合程度,另一种则是让用户根据提供的声音、图像、情境等选择自己的看法,然后得到一个自身的人格评价。而这也对应了心理学人格测量中的自陈量表和投射测验两种测量类型。

如果要从科学角度来说,想要知道自己真实的人格类型是什么,还是得采用心理学上经典的人格测量方法,如我们耳熟能详的MBTI职业性格测试以及五大人格等。而现如今,越来越多的研究者们也热衷于运用大数据方法分析人们的人格特质。

一、大数据如何能识别人格?

《人格心理学》的作者Burger把人格定义为稳定的行为方式和发生在个体身上的人际过程。而我国著名的心理学家彭聃龄则提出人格是构成一个人的思想、情感及行为的特有的统合模式,这个独特模式包含了一个人区别于他人的稳定而统一的心理品质。可见人格一个重要的特点就是稳定性,而这种稳定的人格特征则会反映在我们生活当中的方方面面。

作为互联网原住民的我们,个人信息以及用户行为等都在社交网络上被记录下来。

一方面,我们在社交网络上留下了许多结构化数据,例如我们的性别、年龄、地区、朋友的数量等。

另一方面,社交网络上也包括许多关于我们的非结构化数据,如发表的文字评论,转发的生活照片以及视频、给某篇公众号文章点赞等。如果从大的时间情境下来看,这些非结构数据也通常具有相对的内在一致性,是我们人格的重要的外在表征。

因此,从社交网络用户中收集到的海量用户数据(文本、数字、图像等),无疑可以作为人格识别中的重要依据。研究者也通常可以利用这些数据,在一定准确性的前提下,通过恰当的数据分析方法推断人们背后的人格特质。

二、大数据如何来识别人格?

心理学中关于个体的差异有着许多的人格理论,而在人格分析当中最常用的是特质理论模型,即大五人格理论模型。五个方面的人格特质分别为开放性、尽责性、外向性、宜人性、神经质,研究者们认为这五个方面可以涵盖一个人人格的所有方面。并且由于其运用数值统计量化人格特征,也通常被运用于计算机领域中对人格进行测量。

图表来源:吴桐、郑康锋、伍淳华、王秀娟、郑赫慈《网络空间安全中的人格研究综述》

运用大数据识别人格的基本方法是首先使用问卷调查的方法,让调查用户填写心理量表获取用户的大五人格特质得分;同时获取调查用户在使用社交网络时产生的与用户自身相关的数据,进而利用大数据分析的方法将用户人格特质数据与用户相关数据进行关联,最终建立起模型对人格进行预测,实现对其他用户人格的识别。

那么在具体的研究当中,又可以根据社交媒体中的哪些数据来源来对人格进行识别呢?

一方面,可以利用文本资料来对人们的人格特质进行推断,例如我们的个人昵称、在社交平台上的个人介绍以及发表的评论等。有学者就根据微博用户发送的文本内容来识别人格特质。其研究发现:

  • 开放性得分高的人倾向于发表较长篇幅的内容,使用第一人称和第三人称形式,并且更多使用情绪词和焦虑词

  • 尽责性得分高的人在文本中不喜欢用分号

  • 外向性得分高的人多使用第二人称形式,并且喜欢使用缩写形式以及表情使用和惊叹语气词

  • 宜人性得分高的人则倾向于使用积极的情绪词,并且不怎么说脏话

  • 神经质得分高的人,更多喜欢用第三人称形式,并且自我描述的内容也较多

另一方面,图像资料也颇受研究者们的青睐。一项针对推特用户的研究中,研究者就利用用户头像的图像、图像色彩以及面部表情等特征来推断使用者的人格特质。其研究发现:

  • 开放性得分高的人更加倾向于使用清晰度高、色彩更少的用户头像,这是因为他们通常具有更高的审美要求但更少的情绪体验

  • 尽责性的人则更加喜欢使用侧脸、颜色亮丽以及带有微笑的面部表情作为用户头像,这是因为他们更加倾向于让自己看起来更加成熟稳重以及更加被值得信赖

  • 外向性得分高的人更加喜欢使用与外界相关联的用户头像,如使用合照以及突出周围环境的图像

  • 宜人性得分高的人更加喜欢使用面部带有积极情绪的用户头像

  • 神经质得分高的人更喜欢使用简单、无色彩、面部无表情的用户头像

此外,我们在社交媒体中的一些结构数据也能被用作识别人格,如我们在社交网络中的朋友数量、上传的照片数量以及参加群组的数量。一项利用Facebook的My Personality数据的研究利用这样的结构数据和大五人格特征得分进行了相关性分析。

  • 开放性得分高的人更新动态的频率、点赞的频率更高,并且加入的群组数量也更多

  • 尽责性得分高的人点赞频率更低、加入的群组数量更少,但却更加倾向于在社交媒体上上传照片

  • 外向性得分高的人则更加频繁更新社交媒体的状态,并且喜欢向朋友分享生活近况和表达自己的感受

  • 神经质得分和用户在社交媒体上朋友数量有着有趣的关系,神经质得分随着朋友数量的增加呈现出先上升后下降的关系

在神经质维度上的关系,一个可能的解释是,神经质得分高的人可能需要从朋友那里获取更多支持来缓解自己的负面情绪,而这种支持只能从少数的亲密朋友那里获得。因此,对于神经质得分高的人来说,朋友数量在达到一定程度后,便不再增加。但尽管神经质得分高的人在社交媒体上有更少的朋友,但通常有着更加密切的联系。

神经质得分与朋友数量的相关性关系

图表来源:Bachrach Y, Kosinski M, Graepel T, et al. Personality and Patterns of Facebook Usage.

三、小结

在过去的十几年中,社交媒体的普及使得研究者们利用大数据进行人格识别成为可能。基于个体的用户信息和行为特征,研究者可以从个体细小的足迹中窥探背后隐藏的人格特质。并且,随着研究的深入,利用大数据识别人格的精确性也不断提高,有学者将其概括为以下几个方面:

研究样本量的不断增加。研究的大样本量可以保证了研究结果的外部效度。

  • 数据来源的多元化。由于社交平台之间的差异性,用户通常会在不同的社交平台上表现出不同的人格特征,组合不同的信息来源可以更加全面反映用户的人格特质。

  • 单一维度的特征提取精细化。对于单一维度的数据如文本数据,研究者往往可以从多个方面提取出更多的有效信息,从而使结果更加准确。

  • 分析维度的多元化。在利用用户数据时,研究者越来越倾向于采用文本、图像、语音等多维度相结合的方式进行识别,多维度的分析方式也增加了研究结果的可靠性。

  • 算法实现的多元化。相比于早期研究,近几年的研究中,研究者会结合不同的算法来识别人格,以此来提高准确性。

但同时也要看到,大数据并不是万能的,由于其自身存在的一些特性,在运用到社会研究领域时通常会面临到很多问题。计算社会学家马修·萨尔加尼克将这些不利因素概括为不完整性、难以获取、不具代表性、漂移、算法干扰、脏数据以及敏感性。在未来,如何更好地利用大数据资源服务于社会研究,仍然需要研究者们更多的探索。

参考文献:

郑敬华,郭世泽,高梁,赵楠.基于多任务学习的大五人格预测[J].

中国科学院大学学报,2018,35(04):550-560.吴桐,郑康锋,伍淳华,王秀娟,郑赫慈.网络空间安全中的人格研究综述[J].

电子与信息学报,2020,42(12):2827-2840.费定舟,赵雅婷.社交媒体中的人格计算研究综述[J].计算机工程与应用,2019,55(20):34-42.

Liu L, Preotiuc-Pietro D, Samani Z R, et al. Analyzing personality through social media profile picture choice[C]//Tenth international AAAI conference on web and social media. 2016.

Bachrach Y, Kosinski M, Graepel T, et al. Personality and Patterns of Facebook Usage[C]// Proceedings of the 4th Annual ACM Web Science Conference.2012,24-32.

Farnadi G, Sitaraman G, Sushmita S, et al. Computational personality recognition in social media[J]. User modeling and user-adapted interaction, 2016, 26(2): 109-142.

本文来自微信公众号:严肃的人口学八卦(ID:renkou8gua),作者/图编:胡文波(中国人民大学社会与人口学院本科生),责编:李婷(中国人民大学社会与人口学院教授)


推荐阅读
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 集成电路企业在进行跨隔离网数据交换时面临着安全性问题,传统的数据交换方式存在安全性堪忧、效率低下等问题。本文以《Ftrans跨网文件安全交换系统》为例,介绍了如何通过丰富的审批流程来满足企业的合规要求,保障数据交换的安全性。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 本文讨论了B360主板是否可以安装win7系统的问题。由于B360主板不支持win7系统且缺乏官方驱动的支持,安装win7系统可能存在兼容性和稳定性问题。然而,通过借助USB3.0转接卡,B360主板仍然可以安装win7系统,但USB接口无法使用。相比之下,B365主板可以直接支持win7系统,并提供了相应的驱动,具有更好的稳定性和兼容性。选择合适的主板对于安装win7系统至关重要。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文介绍了C#中生成随机数的三种方法,并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法,但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数,进一步突显了这个问题。文章指出,随机数生成在任何编程语言中都是必备的功能,但Random类生成的随机数并不可靠。最后,提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]
  • 无线认证设置故障排除方法及注意事项
    本文介绍了解决无线认证设置故障的方法和注意事项,包括检查无线路由器工作状态、关闭手机休眠状态下的网络设置、重启路由器、更改认证类型、恢复出厂设置和手机网络设置等。通过这些方法,可以解决无线认证设置可能出现的问题,确保无线网络正常连接和上网。同时,还提供了一些注意事项,以便用户在进行无线认证设置时能够正确操作。 ... [详细]
  • 加密世界下一个主流叙事领域:L2、跨链桥、GameFi等
    本文介绍了加密世界下一个主流叙事的七个潜力领域,包括L2、跨链桥、GameFi等。L2作为以太坊的二层解决方案,在过去一年取得了巨大成功,跨链桥和互操作性是多链Web3中最重要的因素。去中心化的数据存储领域也具有巨大潜力,未来云存储市场有望达到1500亿美元。DAO和社交代币将成为购买和控制现实世界资产的重要方式,而GameFi作为数字资产在高收入游戏中的应用有望推动数字资产走向主流。衍生品市场也在不断发展壮大。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 在线教育平台的搭建及其优势
    在线教育平台的搭建对于教育发展来说是一次重大进步。未来在线教育市场前景广阔,但许多老师不知道如何入手。本文介绍了在线教育平台的搭建方法以及与传统教育相比的优势,包括时间、地点、空间的灵活性,改善教育不公平现象以及个性化教学的特点。在线教育平台的搭建将为学生提供更好的教育资源,解决教育不公平的问题。 ... [详细]
  • 本文介绍了Windows操作系统的版本及其特点,包括Windows 7系统的6个版本:Starter、Home Basic、Home Premium、Professional、Enterprise、Ultimate。Windows操作系统是微软公司研发的一套操作系统,具有人机操作性优异、支持的应用软件较多、对硬件支持良好等优点。Windows 7 Starter是功能最少的版本,缺乏Aero特效功能,没有64位支持,最初设计不能同时运行三个以上应用程序。 ... [详细]
author-avatar
Jaaaaasonnv_116
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有