ML

Machine Learning笔记(4)

Classifier

Posted by mtt on September 27, 2018

Geometric margin and functional margin

Functional margin

一个超平面 $w^T x + b = 0$ 关于点 $(x^i, y^i)$ 的函数间隔是

关于训练集S的函数间隔是

Geometric margin

一个超平面 $w^T x + b = 0$ 关于点 $(x^i, y^i)$ 的几何间隔是


关于集合S的几何间隔是

也就是说
几何间隔不随着$\lVert w \rVert$的变化而变化

Max Margin Classifier

目标:
假设数据线性可分,选取适当的线性分类面的原则:最大化几何间隔(当 $\lVert w \rVert$为1时,等于函数间隔)

s.t.
or

s.t.
or令函数间隔放缩到1(要求线性可分),那么所求即为

s.t.
求解这个问题令

由KKT对偶互补条件得

此时 $g_i(w,b)$ 是被激活的constrains, 对应的向量为support vectors
对应的拉格朗日函数为

dual problem




把w代入L得到

那么对偶问题即为

s.t.

也就是说为了最大化 $\Theta_D(\alpha) (\alpha \ge 0)$, 如果 $\sum_{i} y^i \alpha_i = 0$,那么 $\Theta_D(\alpha) = W(\alpha)$,否则 $\Theta_D(\alpha) = -\infty$ 由对偶问题求出 $\alpha$,进一步求出 $w$和 $b$
其hypothese

Kernel Trick

由上我们只需知道 $\langle x^i,x^j \rangle$ 和 $\langle x^i, x \rangle$就能得到一个最优几何间隔分类器并进行预测
当数据线性不可分,把数据用 $\phi$ 变换到高维空间使其在高维空间中线性可分,那么只需 代换为 $\langle \phi(x^i),\; \phi(x^j)\rangle$
定义核函数

常见的核函数


Mercer定理

合法核函数的充要条件
假设 $k$ 是核函数, 给定集合 $\{x^1, x^2, \ldots, x^m\}$ 令 $ K = \mathbb{R}^{m \times m} \quad K_{ij} = k(x^i, x^j)$,那么对于任意 $z \in \mathbb{R}^m$,有
即 $K$ 是对称半正定矩阵

软间隔分类器

  • 数据线性不可分或者映射到高维依然线性不可分
  • 数据中线性可分,但因为噪声点使得最大间隔分类器的结果不合理

我们引入软间隔分类器,对分类错误的点加入惩罚,问题变为:

s.t.

Larangian:

dual problem:

由KKT条件得



代入整理得

由KKT对偶互补条件得
那么根据 $\alpha_i$的取值我们可以将数据点分为三种:

  1. non-SV: $\alpha_i = 0 \Rightarrow \xi_i = 0 \Rightarrow y^i(w^T x^i + b) \ge 1$ 没有违反边界
  2. bounded-SV: $\alpha_i = C \Rightarrow y^i(w^T x^i + b) = 1-\xi_i \Rightarrow y^i(w^T x^i + b) \le 1$ 在边界上或者边界内或者违反了边界
  3. free-SV: $C \gt \alpha_i \gt 0 \Rightarrow y^i(w^T x^i + b) = 1$ 在边界上
SMO

为了求解对偶问题,采用固定其他参数,在约束条件下优化剩下两个参数,迭代求解。

Larangian Duality

Dual problem

假设原始问题p是

s.t.

其目标函数最优值为 $p^* $
Larangian:

我们定义

那么

定义

那么原始问题p的对偶问题d为

目标函数最优值为 $d^* $

定理: 若原始问题和对偶问题都有最优值,那么 $d^* \le p^* $
推论: 设 $\omega^* $ 和 $\alpha^* \; \beta^* $ 分别是原始问题和对偶问题的可行解,如果 $d^* = p^* $,那么 $\omega^* $和 $\alpha^* \; \beta^* $都是原始问题和对偶问题的最优解。

KKT condition

假设 $f \; $ 为convex函数,$ h_i$ 是仿射函数( $h_i(w) = a_i^T w + b$),$g_i$严格feasible?, 那么存在 $w^* \; \alpha^* \; \beta^* $使得 $w^* $和 $\alpha^* \; \beta^* $分别是原始问题和对偶问题的最优解的充要条件为