Geometric margin and functional margin
Functional margin
一个超平面 $w^T x + b = 0$ 关于点 $(x^i, y^i)$ 的函数间隔是
关于训练集S的函数间隔是
Geometric margin
一个超平面 $w^T x + b = 0$ 关于点 $(x^i, y^i)$ 的几何间隔是
关于集合S的几何间隔是
也就是说
几何间隔不随着$\lVert w \rVert$的变化而变化
Max Margin Classifier
目标:
假设数据线性可分,选取适当的线性分类面的原则:最大化几何间隔(当 $\lVert w \rVert$为1时,等于函数间隔)
s.t.
or
s.t.
or令函数间隔放缩到1(要求线性可分),那么所求即为
s.t.
求解这个问题令
由KKT对偶互补条件得
此时 $g_i(w,b)$ 是被激活的constrains, 对应的向量为support vectors
对应的拉格朗日函数为
dual problem
把w代入L得到
那么对偶问题即为
s.t.
也就是说为了最大化 $\Theta_D(\alpha) (\alpha \ge 0)$, 如果 $\sum_{i} y^i \alpha_i = 0$,那么 $\Theta_D(\alpha) = W(\alpha)$,否则 $\Theta_D(\alpha) = -\infty$
由对偶问题求出 $\alpha$,进一步求出 $w$和 $b$
其hypothese
Kernel Trick
由上我们只需知道 $\langle x^i,x^j \rangle$ 和 $\langle x^i, x \rangle$就能得到一个最优几何间隔分类器并进行预测
当数据线性不可分,把数据用 $\phi$ 变换到高维空间使其在高维空间中线性可分,那么只需 代换为 $\langle \phi(x^i),\; \phi(x^j)\rangle$
定义核函数
常见的核函数
Mercer定理
合法核函数的充要条件
假设 $k$ 是核函数, 给定集合 $\{x^1, x^2, \ldots, x^m\}$ 令 $ K = \mathbb{R}^{m \times m} \quad K_{ij} = k(x^i, x^j)$,那么对于任意 $z \in \mathbb{R}^m$,有
即 $K$ 是对称半正定矩阵
软间隔分类器
当
- 数据线性不可分或者映射到高维依然线性不可分
- 数据中线性可分,但因为噪声点使得最大间隔分类器的结果不合理
我们引入软间隔分类器,对分类错误的点加入惩罚,问题变为:
s.t.
Larangian:
dual problem:
由KKT条件得
代入整理得
由KKT对偶互补条件得
那么根据 $\alpha_i$的取值我们可以将数据点分为三种:
- non-SV: $\alpha_i = 0 \Rightarrow \xi_i = 0 \Rightarrow y^i(w^T x^i + b) \ge 1$ 没有违反边界
- bounded-SV: $\alpha_i = C \Rightarrow y^i(w^T x^i + b) = 1-\xi_i \Rightarrow y^i(w^T x^i + b) \le 1$ 在边界上或者边界内或者违反了边界
- free-SV: $C \gt \alpha_i \gt 0 \Rightarrow y^i(w^T x^i + b) = 1$ 在边界上
SMO
为了求解对偶问题,采用固定其他参数,在约束条件下优化剩下两个参数,迭代求解。
Larangian Duality
Dual problem
假设原始问题p是
s.t.
其目标函数最优值为 $p^* $
Larangian:
我们定义
那么
定义
那么原始问题p的对偶问题d为
目标函数最优值为 $d^* $
定理: 若原始问题和对偶问题都有最优值,那么 $d^* \le p^* $
推论: 设 $\omega^* $ 和 $\alpha^* \; \beta^* $ 分别是原始问题和对偶问题的可行解,如果 $d^* = p^* $,那么 $\omega^* $和 $\alpha^* \; \beta^* $都是原始问题和对偶问题的最优解。
KKT condition
假设 $f \; $ 为convex函数,$ h_i$ 是仿射函数( $h_i(w) = a_i^T w + b$),$g_i$严格feasible?, 那么存在 $w^* \; \alpha^* \; \beta^* $使得 $w^* $和 $\alpha^* \; \beta^* $分别是原始问题和对偶问题的最优解的充要条件为