热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

推荐系统_历史最全16个推荐系统开放公共数据集整理分享

篇首语:本文由编程笔记#小编为大家整理,主要介绍了历史最全-16个推荐系统开放公共数据集整理分享相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了历史最全-16个推荐系统开放公共数据集整理分享相关的知识,希望对你有一定的参考价值。


























    (本文由深度学习与NLP编译)


    本文主要整理了一些与推荐系统相关的高质量的数据集。整理自Stack Overflow、一些文章、推荐站点和学术实验。其中,大多数数据集都是免费、开放的,但有些不是,需要获得许可或引用作者的工作才能使用。此外,其中也包含一些预处理数据,可用于学术实验。链接和数据集描述。




Book


· 1. Book Crossing














    BookCrossing(BX)数据集由Cai-Nicolas花了的4周(2004年8月/ 9月)从Book-Crossing社区中爬取得到的。


· 下载链接:http://www2.informatik.uni-freiburg.de/~cziegler/BX/




电子商务


· 2. Amazon








历史最全-16个推荐系统开放公共数据集整理分享






    该数据集包括自1996年5月至2014年7月,来自亚马逊上的1.428亿产品的评论和metadata。


· 下载链接:http://jmcauley.ucsd.edu/data/amazon/




· 3. Retailrocket推荐系统数据集








历史最全-16个推荐系统开放公共数据集整理分享






    该数据集由三个文件组成:一个行为数据集(events.csv),一个属性数据集(item_properties.сsv)和一个类目树数据集(category_tree.сsv)。该数据来自现实世界的电子商务网站。


· 下载链接:https://www.kaggle.com/retailrocket/ecommerce-dataset




音乐


· 4. Amazon Music








历史最全-16个推荐系统开放公共数据集整理分享






    该数字音乐数据集包含来自亚马逊的评论和元数据


· 下载链接:http://jmcauley.ucsd.edu/data/amazon/




· 5. Yahoo Music








历史最全-16个推荐系统开放公共数据集整理分享






    该数据集是一个快照,收集了音乐社区对各种音乐艺术家的偏好。


· 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r




· 6. LastFM(Implicit)








历史最全-16个推荐系统开放公共数据集整理分享






    该数据集收集了Last.fm网站上2千名用户的社交网络、tagging和music artist listening信息。


· 下载链接:https://grouplens.org/datasets/hetrec-2011/




· 7. Milion Song Dataset








历史最全-16个推荐系统开放公共数据集整理分享






    Million Song数据集是一个免费的数据集,提供了一百万条当代流行音乐曲目相关的的audio features和metadata。


· 下载链接:https://labrosa.ee.columbia.edu/millionsong/




电影


· 8. MovieLens








历史最全-16个推荐系统开放公共数据集整理分享






    GroupLens Research已经从他们的电影网站收集整理的rating数据集。


· 下载链接:https://grouplens.org/datasets/movielens/




· 9. Yahoo Movies








历史最全-16个推荐系统开放公共数据集整理分享






    该数据集包含从两个不同来源收集的歌曲的rating数据集。第一个来源是用户在与Yahoo上使用音乐服务是产生的rating数据。


· 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r




· 10. CiaoDVD








历史最全-16个推荐系统开放公共数据集整理分享






    CiaoDVD是2013年12月从dvd.ciao.co.uk网站上抓取的DVD类别数据集。


· 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r




·11. FilmTrust








历史最全-16个推荐系统开放公共数据集整理分享






    FilmTrust是2011年6月从整个FilmTrust网站上抓取的一个小型数据集。


· 下载链接:https://www.librec.net/datasets.html




· 12. Netflix








历史最全-16个推荐系统开放公共数据集整理分享






    这是Netflix奖竞赛中使用的官方数据集。


· 下载链接:http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a




游戏


· 13. Steam Video Games








历史最全-16个推荐系统开放公共数据集整理分享






    这是一个用户行数据集,包含:user-id,game-title,behavior-name,value。包括“purchase”和“play”数据集。购买了,puchase的值为1,而“play”的值表示用户播放音乐的时长。


· 下载链接:https://www.kaggle.com/tamber/steam-video-games/data




Jokes


· 14. Jester








历史最全-16个推荐系统开放公共数据集整理分享






    该笑话数据集包含来自73,496个用户,关于100个笑话的410万连续rating数据(-10.00到+10.00)


· 下载链接:http://www.ieor.berkeley.edu/~goldberg/jester-data/




餐饮


·15. Chicago Entree








历史最全-16个推荐系统开放公共数据集整理分享






    该数据集包含用户与Entree Chicago餐厅推荐系统交互的记录数据。


· 下载链接:http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data




动漫


·16. 动漫推荐数据库








历史最全-16个推荐系统开放公共数据集整理分享






    该数据集包含来自12,294个动漫的73,516个用户的用户偏好数据。每个用户都可以将动画添加到已完成的列表中并为其评分,该数据集把这些评级整理起来。


· 下载链接:https://www.kaggle.com/CooperUnion/anime-recommendations-database




其他数据集


· GroupLens数据集








历史最全-16个推荐系统开放公共数据集整理分享






· 下载链接:https://grouplens.org/datasets/




· LibRec数据集








历史最全-16个推荐系统开放公共数据集整理分享






· 下载链接:https://www.librec.net/datasets.html




· Yahoo Research数据集








历史最全-16个推荐系统开放公共数据集整理分享






· 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r




· 斯坦福大型网络数据集汇编








历史最全-16个推荐系统开放公共数据集整理分享






· 下载链接:https://snap.stanford.edu/data/


















往期精彩内容推荐



































历史最全-16个推荐系统开放公共数据集整理分享




扫描下方二维码可以订阅哦!


















历史最全-16个推荐系统开放公共数据集整理分享









历史最全-16个推荐系统开放公共数据集整理分享


DeepLearning_NLP




历史最全-16个推荐系统开放公共数据集整理分享












深度学习与NLP






























推荐阅读
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 如何将Python与Excel高效结合:常用操作技巧解析
    本文深入探讨了如何将Python与Excel高效结合,涵盖了一系列实用的操作技巧。文章内容详尽,步骤清晰,注重细节处理,旨在帮助读者掌握Python与Excel之间的无缝对接方法,提升数据处理效率。 ... [详细]
  • Android 构建基础流程详解
    Android 构建基础流程详解 ... [详细]
  • 深入解析CAS机制:全面替代传统锁的底层原理与应用
    本文深入探讨了CAS(Compare-and-Swap)机制,分析了其作为传统锁的替代方案在并发控制中的优势与原理。CAS通过原子操作确保数据的一致性,避免了传统锁带来的性能瓶颈和死锁问题。文章详细解析了CAS的工作机制,并结合实际应用场景,展示了其在高并发环境下的高效性和可靠性。 ... [详细]
  • [转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用,包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]
  • 在《Cocos2d-x学习笔记:基础概念解析与内存管理机制深入探讨》中,详细介绍了Cocos2d-x的基础概念,并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解,例如在处理鱼的运动过程中,可以通过编写自定义函数来动态计算角度变化,利用CallFunc回调机制实现高效的游戏逻辑控制。此外,文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏,为开发者提供了实用的编程技巧和最佳实践。 ... [详细]
  • 基于Net Core 3.0与Web API的前后端分离开发:Vue.js在前端的应用
    本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发,并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作,开发环境为Windows 10和Visual Studio 2019,MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装,为开发者提供了一套完整的开发指南。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 优化后的标题:深入探讨网关安全:将微服务升级为OAuth2资源服务器的最佳实践
    本文深入探讨了如何将微服务升级为OAuth2资源服务器,以订单服务为例,详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖,并配置Spring Security以实现对微服务的保护。通过这一过程,不仅增强了系统的安全性,还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践,包括如何配置OAuth2客户端和资源服务器,以及如何处理常见的安全问题和错误。 ... [详细]
  • Android中将独立SO库封装进JAR包并实现SO库的加载与调用
    在Android开发中,将独立的SO库封装进JAR包并实现其加载与调用是一个常见的需求。本文详细介绍了如何将SO库嵌入到JAR包中,并确保在外部应用调用该JAR包时能够正确加载和使用这些SO库。通过这种方式,开发者可以更方便地管理和分发包含原生代码的库文件,提高开发效率和代码复用性。文章还探讨了常见的问题及其解决方案,帮助开发者避免在实际应用中遇到的坑。 ... [详细]
  • 【图像分类实战】利用DenseNet在PyTorch中实现秃头识别
    本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先,文章概述了项目所需的库和全局参数设置。接着,对图像进行预处理并读取数据集。随后,构建并配置DenseNet模型,设置训练和验证流程。最后,通过测试阶段验证模型性能,并提供了完整的代码实现。本文不仅涵盖了技术细节,还提供了实用的操作指南,适合初学者和有经验的研究人员参考。 ... [详细]
  • Python 实战:异步爬虫(协程技术)与分布式爬虫(多进程应用)深入解析
    本文将深入探讨 Python 异步爬虫和分布式爬虫的技术细节,重点介绍协程技术和多进程应用在爬虫开发中的实际应用。通过对比多进程和协程的工作原理,帮助读者理解两者在性能和资源利用上的差异,从而在实际项目中做出更合适的选择。文章还将结合具体案例,展示如何高效地实现异步和分布式爬虫,以提升数据抓取的效率和稳定性。 ... [详细]
  • 在《Python编程基础》课程中,我们将深入探讨Python中的循环结构。通过详细解析for循环和while循环的语法与应用场景,帮助初学者掌握循环控制语句的核心概念和实际应用技巧。此外,还将介绍如何利用循环结构解决复杂问题,提高编程效率和代码可读性。 ... [详细]
author-avatar
sunshinechenxm
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有