算法进阶--第一天
- 故地重游之最大似然估计
- 赌徒之赔率
- Fuzzywuzzy库-Levenshtein distance
- 主成分分析(PCA)
- One-hot编码
故地重游之最大似然估计
首先从贝叶斯公式开始:
给定某些样本D,在这些样本中计算某结论A1,A2…An出现的概率,即P(Ai|D),若求maxP(Ai|D),则有以下式子:
– 当样本给定时,P(D)是常数,可以忽略
maxP(Ai∣D)=maxP(D∣Ai)P(Ai)P(D)=max(P(D∣Ai)P(Ai))maxP(A_i|D)=max\frac{P(D|A_i)P(A_i)}{P(D)}=max(P(D|A_i)P(A_i))maxP(Ai∣D)=maxP(D)P(D∣Ai)P(Ai)=max(P(D∣Ai)P(Ai))
– 若A1,A2,…An的先验概率相等(或者近似),则得到以下结论:
maxP(Ai∣D)→maxP(D∣Ai)maxP(A_i|D)→maxP(D|A_i)maxP(Ai∣D)→maxP(D∣Ai)
–也就是说,问题从在求给定样本D下,A1,A2,...AiA_1,A_2,...A_iA1,A2,...Ai中哪一个结论的发生的可能性最大,转变为给定一个结论AiA_iAi,该样本D产生的概率最大(最大似然估计)。
- 最大似然估计(MLE):
– 设总体分布为f(x,θ)f(x,\theta)f(x,θ),X1,X2...XnX_1,X_2...X_nX1,X2...Xn为该总体采样得到的样本。因为X1,X2...XnX_1,X_2...X_nX1,X2...Xn独立同分布,故他们的联合密度函数为:
L(x1,x2....xn);θ1,θ2...θk=∏i=1nf(xi;θ1,θ2...θk)L(x_1,x_2....x_n);\theta1,\theta2...\theta k=\prod _{i=1}^{n}f(x_i;\theta1,\theta2...\theta k)L(x1,x2....xn);θ1,θ2...θk=i=1∏nf(xi;θ1,θ2...θk)
–其中,θ\thetaθ被看做固定但未知的参数,同时因为样本已经存在,则可以将样本看成是固定的,即将L(x,θ)L(x,\theta)L(x,θ)看成是关于θ\thetaθ的函数,这个函数就叫做似然函数,求参数θ\thetaθ的值,使得似然函数取最大值,这种方法就要做最大似然估计. - 最大似然估计的求解:等式两边取对数,求偏导
赌徒之赔率
- 赔率:假设在一个赌球中,买甲队赢的赔率是3,乙队赢的概率为4,假设一张票为10元,若张三买甲队赢,则张三赚20元(30-10,其中10元给庄家),而庄家亏10元(10-20,收了张三10元再赔给张三20元)
- 公平赔率:
–如图:
| 甲球队 | 乙球队 |
---|
败率( Y ) | 0.8 | 0.2 |
赔率( P ) | 1.25 | 5 |
假设票价为一元,所有人中,有a人买甲球队赢,b人买乙球队赢,则庄家在比赛前收入为(a+b)元,同时,庄家的赔付期望为:
E(y)=∑YiPi=0.8×1.25×a+0.2×5×b=a+bE(y)=\sum{Y_i}{P_i}=0.8×1.25×a+0.2×5×b=a+bE(y)=∑YiPi=0.8×1.25×a+0.2×5×b=a+b
由此可见,庄家不亏不赚,故当赔率为P=1YP=\frac{1}{Y}P=Y1时,为公平赔率
–在实际中,庄家会将公平赔率乘以某一个小于1的系数α\alphaα,即得到真实赔率:
y=α⋅Pfairy=\alpha \cdot P_{fair}y=α⋅Pfair
Fuzzywuzzy库-Levenshtein distance
API:Fuzzywuzzy
主成分分析(PCA)
- 大佬讲解的很牛逼了,直接进去啃就完事了
参考视频:用最直观的方式告诉你:什么是主成分分析PCA
参考文章:github
One-hot编码
- 定义:又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效.
- 在机器学习中,一个特征会有多个值,也就是多个状态,如性别,有男或者女,财富分为:贫穷,温饱,小康,富裕,四个状态,如图:
–将性别用数字1,2表示男,女,财富用1,2,3,4分别代表着贫穷,温饱,小康,富裕四个状态
–如果转换成用one-hot编码,则有下图:
| 性别男 | 性别女 | 贫穷 | 温饱 | 小康 | 富裕 |
---|
样本一 | 1 | 0 | 0 | 0 | 0 | 1 |
样本二 | 0 | 1 | 0 | 1 | 0 | 0 |
样本三 | 1 | 0 | 1 | 0 | 0 | 0 |
样本四 | 0 | 1 | 0 | 0 | 1 | 0 |
- 疑问之为啥要使用one-hot编码:https://www.likecs.com/show-64021.html