作者:丫头2502892725 | 来源:互联网 | 2023-09-18 11:08
文章目录概率运算贝叶斯公式贝叶斯推理三门问题[^1]贝叶斯推理与机器学习泰勒展开假设的重要性奥卡姆剃刀[^2]决策理论概率运算求事件A或B发生的概率:A⋃B→P(A
概率运算
- 求事件A或B发生的概率:A⋃B→P(A+B)=P(A)+P(B)A \bigcup B \to P(A+B) = P(A)+P(B)A⋃B→P(A+B)=P(A)+P(B)
- 求事件A且B发生的概率:A⋂B→P(A,B)=P(A)P(B)A \bigcap B \to P(A,B) = P(A)P(B)A⋂B→P(A,B)=P(A)P(B)
- 求事件A不发生的概率:Aˉ→P(Aˉ)=1−P(A)\bar A \to P(\bar A) = 1 - P(A)Aˉ→P(Aˉ)=1−P(A)
- 求在事件B发生的条件下,事件A发生的概率:P(A∣B)=P(A,B)/P(B)P(A|B) = P(A,B)/P(B)P(A∣B)=P(A,B)/P(B)
- 求在事件A发生的条件下,事件B的概率:P(B∣A)=P(A,B)/P(A)P(B|A) = P(A,B)/P(A)P(B∣A)=P(A,B)/P(A)
- 全概率公式:P(A)=P(A∣B)P(B)+P(A∣Bˉ)P(Bˉ)P(A) = P(A|B)P(B) +P(A|\bar B)P(\bar B)P(A)=P(A∣B)P(B)+P(A∣Bˉ)P(Bˉ)
贝叶斯公式
P(A∣B)=P(B∣A)P(A)P(B∣A)p(A)+P(B∣Aˉ)P(Aˉ)P(A|B) = {P(B|A)P(A) \over {P(B|A)p(A) +P(B|\bar A)P(\bar A)}}P(A∣B)=P(B∣A)p(A)+P(B∣Aˉ)P(Aˉ)P(B∣A)P(A)
证明
P(A,B)=P(B,A)P(A,B) = P(B,A)P(A,B)=P(B,A)
P(A∣B)P(B)=P(B∣A)P(A){P(A|B)P(B)} = {P(B|A)P(A)}P(A∣B)P(B)=P(B∣A)P(A)
P(A∣B)=P(B∣A)P(A)p(B)P(A|B) = {P(B|A)P(A) \over {p(B)}}P(A∣B)=p(B)P(B∣A)P(A)
P(A∣B)=P(B∣A)P(A)p(B∣A)P(A)+P(B∣Aˉ)P(Aˉ)P(A|B) = {P(B|A)P(A) \over {p(B|A)P(A)+P(B|\bar A)P(\bar A)}}P(A∣B)=p(B∣A)P(A)+P(B∣Aˉ)P(Aˉ)P(B∣A)P(A)
其中B代表着证据或是数据,A代表着事件,P(A)称之为先验概率,P(A|B)称之为后验概率。
贝叶斯推理
三门问题
问题:
参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车或者是奖品,选中后面有车的那扇门就可以赢得该汽车或奖品,而另外两扇门后面则各藏有一隻山羊。当参赛者选定了一扇门,但未去开启它的时候,知道门后情形的节目主持人会开启剩下两扇门的其中一扇,露出其中一隻山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。问题是:换另一扇门会否增加参赛者赢得汽车的机率?
求证
假设你已经选择了门1
开门前:
设门1,2,3后有车的概率分别为P(1),P(2),P(3)P(1),P(2),P(3)P(1),P(2),P(3),选中车概率为:P(1)=P(2)=P(3)=13P(1)=P(2)=P(3) = {1 \over 3}P(1)=P(2)=P(3)=31,其中的P(n)P(n)P(n)为先验概率
开门后:
P(2∣3)=P(3∣2)P(2)p(3∣2)P(2)+P(3∣1)P(1)++P(3∣3)P(3)P(2|3) = {P(3|2)P(2) \over {p(3|2)P(2)+P(3|1)P(1)++P(3|3)P(3)}}P(2∣3)=p(3∣2)P(2)+P(3∣1)P(1)++P(3∣3)P(3)P(3∣2)P(2)
=1⋅131⋅13+12⋅13+0⋅13= {1 \cdot {1\over 3}\over {1 \cdot {1 \over 3}+{{1 \over 2} \cdot{1 \over 3}}+{0 \cdot {1 \over 3}}}}=1⋅31+21⋅31+0⋅311⋅31
=23={2 \over 3}=32
P(1∣3)=13P(1|3) = {1 \over 3}P(1∣3)=31
因为P(1∣3)P(1∣3)<P(2∣3)
,所以选择换门。
泰勒展开
任何函数都可以以泰勒展开式拟合。
假设对f(x)f(x)f(x)的拟合函数有如下四个
- f1(x):Y&#61;W1→拟合得最差f_1(x) :Y &#61; W_1 \to 拟合得最差f1(x):Y&#61;W1→拟合得最差
- f2(x):Y&#61;W1X&#43;B→拟合的极差f_2(x):Y&#61;W_1X&#43;B \to 拟合的极差f2(x):Y&#61;W1X&#43;B→拟合的极差
- f3(x):Y&#61;W1X3&#43;W2X2&#43;W3X1&#43;B拟合的很好f_3(x):Y&#61;W_1X^3&#43;W_2X^2&#43;W_3X^1&#43;B 拟合的很好f3(x):Y&#61;W1X3&#43;W2X2&#43;W3X1&#43;B拟合的很好
- f4(x):Y&#61;W1X10&#43;W2X9&#43;⋯&#43;W10X1B→完全拟合f_4(x):Y&#61;W_1X^{10}&#43;W_2X^9&#43;\cdots &#43;W_{10}X^1B \to 完全拟合f4(x):Y&#61;W1X10&#43;W2X9&#43;⋯&#43;W10X1B→完全拟合
假设的重要性
过拟合问题
虽然函数f4(x)f_4(x)f4(x)在训练集上完全拟合&#xff0c;Cost&#61;0Cost&#61;0Cost&#61;0,但是在测试集上表现上确有很大的误差&#xff0c;这便是过拟合问题。
泛化误差
上文提到的在测试集上的误差&#xff0c;便是泛化误差。我们求得的最佳拟合函数&#xff0c;应该满足泛化误差最小。
贝叶斯错误率
在求得最小泛化误差的同时&#xff0c;我们需要使拟合函数的训练误差接近贝叶斯错误率。
奥卡姆剃刀
根据定义&#xff0c;任何假设都会带来犯错误概率的增加&#xff1b;如果一个假设不能增加理论的正确率&#xff0c;那么它的唯一作用就是增加整个理论为错误的概率
在如上的四个拟合函数中&#xff0c;在能解释问题的情况下&#xff0c;我们选择有3个参数的f3(x)f_3(x)f3(x)函数。因为假设越多&#xff0c;参数越多&#xff0c;则这个函数就越脆弱。
修改代价函数
修改前:Cost&#61;1mΣ(Y−Yp)2Cost &#61; {1 \over m}\Sigma(Y-Y_p)^2Cost&#61;m1Σ(Y−Yp)2
修改后:Cost&#61;1mΣ(Y−Yp)2&#43;f(m)Cost &#61;{1 \over m}\Sigma(Y-Y_p)^2 &#43;f(m)Cost&#61;m1Σ(Y−Yp)2&#43;f(m)
举例&#xff1a;Cost&#61;1mΣ(Y−Yp)2&#43;(W12&#43;W22&#43;⋯&#43;Wm2)Cost &#61;{1 \over m}\Sigma(Y-Y_p)^2 &#43;(W_1^2&#43;W_2^2&#43;\cdots &#43;W_m^2)Cost&#61;m1Σ(Y−Yp)2&#43;(W12&#43;W22&#43;⋯&#43;Wm2)
将代价函数增加了一项关于模型的函数&#xff0c;在模型趋向于复杂时&#xff0c;代价函数值也相应增加