数据挖掘的过程
数据开采的目的
分类
聚类
相关性分析(自相关,互相关)
偏差分析
结果解释和评价
除无关模式
新选择算法
信息的传递
从信源出发,通过信道,传递给信宿
信息的编码,即从信源发出的信号,经过编码形成机器可以识别的信号,经过信道进行传播。
简单的如同,打电话,声音信号的传播,先经过编码,然后先通过信道(此处是电磁波)进行电信号的传播,通过电磁4信号干扰,可以影响信号的质量,这也就是为什么通过电磁波的屏蔽可以阻断电子设备的通讯 。
采用二进制编码
先把事件分为等概率的两个事件,然后再将每一层的事件进行层层细分(按照发生的概率进行细分)。
字符位数
h(i)=log2(1/Pi),以二进制为例,此处的底就是进制数
此处的h(i)也是信息量的表示I(xi)
而信息熵是h(i)和相应的事件的概率的乘积,信息熵用H表示,即黑板上的第三个式子
H=Σp_i*Log_a(1/pi) (i从1到n),这个表示的是平均信息熵
信息熵的性质
1.非负性
2.可加性
3.确定性
4.可扩展性
5.极值性
互信息,输入变量和输出变量(数值可能不同,比如输入时核苷酸的个数,输出的时氨基酸的个数)
联合概率,
条件信息熵即为在某一条件下的信息量的期望值,
平均条件信息熵,就是在联合分布的空间里,整个事件发生的平均信息熵。