ML

Machine Learning笔记(8)

EM算法

Posted by mtt on October 3, 2018

Jensen’s inequality

Theorem: 令f是凸函数, X是随机变量, 那么有 $E[f(X)] \ge f(EX)$, 并且如果f是严格凸函数, 那么 $E[f(X)] = f(EX) \Leftrightarrow X = EX \; w.p. \;1$(X是常数)

EM algorithm

假设我们有数据集 $S = \{x^1, \ldots, x^m\}$, 似然函数是

直接对 $l(\theta)$求偏导得到参数往往是困难的,而

其中 $Q_i(z^i) \ge 0$并且 $\sum_{z^i} Q_i(z^i) = 1$是一个概率分布函数
我们希望选取合适的Q函数使得在特定的参数 $\theta$取值点, 等号成立,那么需要

c是一个和 $z^i$无关的常数


EM:
Repeat until converge
E-step:

M-step:

也就是说在E步在 $\theta^t$点我们选取 $Q_i^t$使得它成为 $l(\theta^t)$一个紧的下界( $l(\theta^t) = J(Q^t, \theta^t)$),然后我们固定 $Q_i^t$不变,关于 $\theta$最大化下界得到 $\theta^{t+1}$,由于不等式 $l(\theta) \ge J(Q,\theta)$总是成立,可以证明 $l(\theta^{t+1}) \ge J(Q^t, \theta^{t+1}) \ge J(Q^t, \theta^{t}) = l(\theta^t)$,其中

因此EM算法也可以看在J上的坐标上升
注意EM算法对初始点敏感,可以保证收敛到稳定度但是不能保证收敛到极大值点

EM算法求解混合高斯模型

E-step:

M-step:


关于 $\phi$最大化W

其中A和B是和 $\phi$无关的量,并且 $\sum_{j=1}^k\phi_j = 1$,因此构造拉格朗日函数

$\beta$是拉格朗日乘子

又因为 $\sum_{j=1}^k \phi_j = 1$推出

EM for Mixture of naive Bayes