文章目录
- 1.英文文献
- 1.1 User Profile Extraction from Twitter for Personalized News Recommendation(2014)
- 1.2 A Framework for Interaction-driven User Modeling of Mobile
1.英文文献
1.1 User Profile Extraction from Twitter for Personalized News Recommendation(2014)
摘要:news recommendation 中使用的较多的用户画像方法是从用户读过的article获取信息,如title,text,click-through data。本文探索一种新的用户画像方法,数据来源是tweets,re-tweets,hashtags,从这些数据中提取keywords 来构建用户画像。(数据来源的创新)
1. introduction:在推荐的两种方法(基于协同过滤的推荐和基于内容的推荐)中,一般来说基于协同过滤的方法比基于内容的方法表现好。但在一些特定的领域如news recommendation领域,基于内容的方法要优于协同过滤方法。原因(1)在news recommendation中,如果要将新的news推荐给用户,协同过滤方法不能马上推荐,需要先等待用户点击news以产生点击记录,然后才能推荐给其他用户,在news recommendation中,对news的实时性有要求,使用协同过滤方法不能实时地把news推荐给用户。而基于内容的方法可实时推荐,不需要等待。
(2)基于协同过滤的方法存在“cold start”问题,当一些news不存在点击记录时,不能将news推荐给用户。而基于内容的方法不存在item的冷启动问题。
2.related work:本文使用了topic model 和tfidf.其中使用topic model来比较news title的相似性。
3.proposed method:news recommendation的步骤有两个。(1)user profile (2)news ranking。本文围绕这两个部分展开,先进行用户画像,再进行news的推荐。
1.2 A Framework for Interaction-driven User Modeling of Mobile
(提出了一个扩展用户画像的框架(创新1)–>考虑用户的阅读模式,即作者提出来的6个要素,接着用几种方法(求解方法无创新)来求解这些要素,设计了一个app来收集用户阅读模式相关数据。
并没有通过用户的阅读模式6要素来进行推荐。)
摘要:在news推荐中,用户读了哪些内容对于推荐效果来说是重要的(用户兴趣)(多数研究使用的方式),用户以某种模式浏览、阅读内容(如阅读频率,阅读的类别分布等)(阅读模式)(交互习惯和偏好)(少有研究考虑)也同样重要。
作者提出了一个框架来扩展用户画像,这个框架用以对阅读模式模式进行建模(此框架并不对用户兴趣进行建模)。在进行扩展画像过程中使用了多种方法,如:推测、变换函数、有监督学习方法。
贡献(1)对用户画像进行扩展。(2)在多种方法上对提出的用户画像进行测试,并讨论此用户画像如何应用在个性化新闻推荐app中。
our work:很多推荐算法(如协同过滤、基于内容的算法、混合算法)被提了出来,但对用户阅读模式进行建模的算法还比较少。
在我们之前的work中,我们识别出了三种用户类型,在以前work的基础上,我们提出了层次框架模型,能够分析mobile-sensing数据,以进行用户建模。层次框架过程如下:手机原始数据、简单处理变成low-level特征、函数变换转化成用户画像中阅读模式6要素。
六要素如下:
频率:一天之中多少次阅读?
花费时间:花费在新闻阅读中的时间?(1小时?2小时?)
阅读时间段:喜欢在哪个时间段阅读?(早上、中午,晚上?)
阅读习惯:粗读?细读?
浏览策略:从某一板块选择点击新闻?浏览全部板块点击新闻?(计算两个指标,一个是用户在所有会话中都浏览过的新闻类型(代表着用户的类型偏好),另一个是用户指在某个回话中点击过的新闻类型(代表着用户是只浏览了少数类型还是浏览了多数类别),从而知道用户的浏览策略。)
地点:家中?单位?室外?
4、buiding user profile:
4.1 data collection:作者为了测试自己提出的算法,设计了一个APP–Habito News,在谷歌软件商店中上架,主要对象是大学生社交网络写手,但因为软件已上架,也不排除有其他的一些人员。作者最终选定了47名用户。(用户至少要使用这个app两周,这样才能收集足够的数据。)用户阅读模式建模所需要的数据都来自于这个app。
app用户在安装Habito News时会被要求填一个表格和做一个问卷。表格包括性别、年龄等人口统计学信息。问卷包括了以下6个问题(每个问题是单项选择):
(1) How often do you read news on your mobile device? [a.
Many times b. Once c. Occasionally]
(2) How much time a day do you spend reading news on
your mobile device? [a. 0-5 min b. 5-10 min c. 10+ min]
(3) How do you look for stories of interest? [a. All b. Particular c. Both]
(4) How do you read a news story? [a. Detailed b. Skimming c. Scanning]
(5) Where do you often read news? [a. Home b. Work c.
Public Transport]
(6) What time of the day do you usually read news? [a.
Morning b. Afternoon c.Evening]
这6个问题对应着6个用户阅读模式factor。
4.2 modeling the six factors
对于频率、阅读时间、阅读时间段,可以比较容易地得出来,但对于其余三个factors,作者使用三种方法进行学习,前两种方法效果没有baseline(在类别中,全都预测为最多的那一类)好,第三种是监督学习方法,对3个factor中的每一个都训练一个随机森林(RF)分类器。
分类的结果:
4.2.1 Preparing the datasets for the analysis:
收集到的数据存在“缺失值”,地理位置没有缺失值,但其余的数据可能具有缺失值,因为用户是根据自己的需求来阅读新闻。刚开始选择了47个用户,有些用户缺乏必要的值,删去了,还剩33个用户。还有些用户下载软件不久就卸载了,这样的用户也删除。最后,作者的数据包括198天的数据(所有用户的天数加在一起),103个特征字段。