热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

推荐系统特征工程处理方法

特征:数据中抽取出来的结果预测有用的信息特征的个数就是数据的观测维度。特征工程时使用专业北京知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用

特征:数据中抽取出来的结果预测有用的信息
特征的个数就是数据的观测维度。
特征工程时使用专业北京知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
特征工程一般暴扣特征清洗(采样,清洗一场样本),特征处理和特征选择
特征按照不同的数据类型分类,有不同的特征处理方法
----数值型
用连续数值表示当前维度特征,通常会对数值型特征进行数学上的处理,主要的做法是归一化和离散化
归一化也称幅度调整
特征与特征之间应该是平等的,区别应该体现在特征内部,
例如:房屋价格和房屋面积的幅度是不同的,价格一般在万级别,而面积应该在百级别,那么明明平等的两个特征,输入到相同的模型中后由于本身的幅值不同而导致产生的效果不同,这是不合理的
那么对于这种情况,应该把数值归一化:
在这里插入图片描述
离散化:
第一种:等步长,
例如:年龄段,每隔十岁一个等级,0-10,10-20,20-30,,,,,
第二种:等频
例如:min -> 25% -> 75% -> max
京东上选商品时候的价格区间,这个是按照那个区间物品密集就在那个密集细分下,
例如:手机可能在1500-3500这个之间会多点 而在5000以上相对比会少点
所以价位应该设置为0-25%,25-30%,30-35%,35%-50%,,,,
两种方法对比:
等频的离散方法很准确,但是需要每次对数据分布从新计算一遍,因为昨天用户在淘宝上买东西的价位分布和今天不一定相同,因此昨天做的等频的切分点可能并不适用,而线上最需要避免的就是不固定,需要现场计算,所以昨天训练出的模型今天不一定能使用
等频不固定,但很准确,等步长是固定的,非常简单,因此两者在工业上都有应用
----类别型
类别型数据本身没有大小关系,需要将他们编码为数字,但是他们之间不能有预先设定的大小关系,因此既要做到公平,又要区分他们,那么直接开辟多个空间,
One-Hot 编码/哑变量
One-Hot 编码所做的就是及那个类别数据平行地展开,也就是说,经过One-Hot编码后,这个特征的空间膨胀,
例如:一个特征为颜色,这是红黄蓝绿这个用数字怎么表示呢???
用One-Hot编码:
红 1000
黄 0100
蓝 0010
绿 0001
在这里插入图片描述

----时间型
时间型特征既可以做连续值,又可以看作离散值
连续值:
持续时间(网页游览时长)
间隔时间(上一次购买/点击离现在的时间间隔)
离散值
一天种那个时间端
一周中的星期几
一年中那个月
工作日/周末
----统计型
加减平均:商品价格高于平均价格多少,用户在某个品类下消费超过多少
分位线:商品属于售出商品价位的分位线处
次序性:商品处于热门商品第几位
比例类:电商中商品的好中差比例


推荐阅读
  • 如何高效学习鸿蒙操作系统:开发者指南
    本文探讨了开发者如何更有效地学习鸿蒙操作系统,提供了来自行业专家的建议,包括系统化学习方法、职业规划建议以及具体的开发技巧。 ... [详细]
  • 新型量子内核助力机器学习分类
    国际科研团队开发出一种创新的量子机器学习分类方法,利用非线性量子内核显著提升了分类精度,为未来量子计算技术的发展开辟了新路径。 ... [详细]
  • 深入解析层次聚类算法
    本文详细介绍了层次聚类算法的基本原理,包括其通过构建层次结构来分类样本的特点,以及自底向上(凝聚)和自顶向下(分裂)两种主要的聚类策略。文章还探讨了不同距离度量方法对聚类效果的影响,并提供了具体的参数设置指导。 ... [详细]
  • 计算机学报精选论文概览(2020-2022)
    本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文,旨在为即将投稿的研究者提供参考。 ... [详细]
  • 【转】强大的矩阵奇异值分解(SVD)及其应用
    在工程实践中,经常要对大矩阵进行计算,除了使用分布式处理方法以外,就是通过理论方法,对矩阵降维。一下文章,我在 ... [详细]
  • 机器学习算法:SVM(支持向量机)
    SVM算法(SupportVectorMachine,支持向量机)的核心思想有2点:1、如果数据线性可分,那么基于最大间隔的方式来确定超平面,以确保全局最优, ... [详细]
  • 本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节,作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识,为后续的机器学习应用打下坚实的基础。 ... [详细]
  • 非计算机专业的朋友如何拿下多个Offer
    大家好,我是归辰。秋招结束后,我已顺利入职,并应公子龙的邀请,分享一些秋招面试的心得体会,希望能帮助到学弟学妹们,让他们在未来的面试中更加顺利。 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • Python环境下OpenCV的安装与验证方法
    本文介绍了如何在Python环境中安装OpenCV库及其额外模块,并提供了验证安装是否成功的具体步骤和代码示例。 ... [详细]
  • Excel技巧:单元格中显示公式而非结果的解决方法
    本文探讨了在Excel中如何通过简单的方法解决单元格显示公式而非计算结果的问题,包括使用快捷键和调整单元格格式两种方法。 ... [详细]
  • Java中提取字符串的最后一部分
    本文介绍了如何使用Java中的substring()和split()方法来提取字符串的最后一部分,特别是在处理包含特殊字符的路径时的方法与技巧。 ... [详细]
  • 本文旨在探讨Swift中的Closure与Objective-C中的Block之间的区别与联系,通过定义、使用方式以及外部变量捕获等方面的比较,帮助开发者更好地理解这两种机制的特点及应用场景。 ... [详细]
  • 如何寻找程序员的兼职机会
    随着远程工作的兴起,越来越多的程序员开始寻找灵活的兼职工作机会。本文将介绍几个适合程序员、设计师、翻译等专业人士的在线平台,帮助他们找到合适的兼职项目。 ... [详细]
  • 本文介绍了用户界面(User Interface, UI)的基本概念,以及在iOS应用程序中UIView及其子类的重要性和使用方式。文章详细探讨了UIView如何作为用户交互的核心组件,以及它与其他UI控件和业务逻辑的关系。 ... [详细]
author-avatar
吴吴吴吴露林
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有