作者:楠楠妈妈05乄23 | 来源:互联网 | 2023-07-12 20:30
14异常检测问题针对给出的样本构建一个模型,在模型范围内的样本点被认为是正常的,超出阈值的样本点被认为是异常的。14.1算法实现一堆样本的每个特征量都对应一个均值和方差计算样本每个
14 异常检测问题
针对给出的样本构建一个模型,在模型范围内的样本点被认为是正常的,超出阈值的样本点被认为是异常的。
14.1 算法实现
- 计算样本每个特征的均值和标准差
- 利用高斯分布构建概率函数:p(x)=p(x1;μ1,σ12)p(x2;μ2,σ22)...p(xn;μn,σn2)
- 设定一个阈值ε作为概率参考值,若新样本的特征计算出的P大于该值,则认为非异常,小于则认为是异常的
- 选取大量正常样本训练P
- 少量正常样本和极少异常样本作为交叉验证集,尝试使用不同的ε值使F1值最大
- 另一部分的少量正常样本和极少异常样本作为测试集
- 可以通过变化特征如取对数,降幂把样本的特征分布改变为高斯型,也可以组合特征使异常得以凸显
14.4 多元高斯分布
p(X;μ,Σ)=(2π)n/2∣Σ∣1/21exp(−21(X−μ)TΣ−1(X−μ))(14.1)
改变协方差矩阵和均值可以捕捉不同的分布
样本数量m需要大于特征数量n,一般m≥10n使用
通过已有的评价去推测未知的评价
15.1 建立推荐系统的方法
15.1.1 基于内容的推荐算法
因为假设已经有电影评价特征量x,学习得到用户特征量θ
相当于多个参数向量的线性回归,去掉了样本总量m
估计用户的特征值θ
假设有部分用户特征量θ,学习得到未知的电影评价特征量x,再反推用户特征量θ ,不断往复
估计电影的特征值x
- 快速协同过滤:同时计算得到θ与x的算法:结合两种代价函数
可计算用户j对电影i的评分预测
- 向量化实现协同过滤:XθT
- 推荐类似的电影:small∣∣x(i)−x(j)∣∣
- 均值归一化:解决有一用户未给所有电影评分的问题(一列无取值)