Geometric margin and functional margin
Functional margin
一个超平面 wTx+b=0 关于点 (xi,yi) 的函数间隔是
ˆδi=yi(wTxi+b)
关于训练集S的函数间隔是
δ=miniˆδi
Geometric margin
一个超平面 wTx+b=0 关于点 (xi,yi) 的几何间隔是
δi=yi[(w‖w‖)Txi+b‖w‖]
wT(xi−‖δi‖w‖w‖)+b=0
关于集合S的几何间隔是
δ=miniδi
也就是说 δi=ˆδi‖w‖
几何间隔不随着‖w‖的变化而变化
Max Margin Classifier
目标:
假设数据线性可分,选取适当的线性分类面的原则:最大化几何间隔(当 ‖w‖为1时,等于函数间隔)
maxδ,w,bδ
s.t. yi(wTxi+b)≥δ‖w‖=1
or
maxˆδ,w,bˆδ‖w‖
s.t. yi(wTxi+b)≥ˆδ
or令函数间隔放缩到1(要求线性可分),那么所求即为
minw,b‖w‖2
s.t. yi(wTxi+b)≥1
求解这个问题令
gi(w,b)=−yi(wTxi+b)+1≤0
由KKT对偶互补条件得
αi>0⇒gi(w∗,b)=0⇒ˆδi=1
此时 gi(w,b) 是被激活的constrains, 对应的向量为support vectors
对应的拉格朗日函数为
L(w,b,α)=12‖w‖2−∑mi=1αi(yi(wTxi+b)−1)
dual problem
maxαs.t.αi≥0OD(α)
OD(α)=minw,bL(w,b,α)
∇wL(w,b,α)=w−∑mi=1αiyixi=0
∇bL(w,b,α)=−∑mi=1yiαi=0
把w代入L得到
W(α)=∑mi=1αi−12∑mi,j=1yiyjαiαj⟨xi,xj⟩−∑mi=1αiyib=∑mi=1αi−12∑mi,j=1yiyjαiαj⟨xi,xj⟩
那么对偶问题即为
maxαW(α)
s.t.
αi≥0∑iyiαi=0
也就是说为了最大化 ΘD(α)(α≥0), 如果 ∑iyiαi=0,那么 ΘD(α)=W(α),否则 ΘD(α)=−∞
由对偶问题求出 α,进一步求出 w和 b
其hypothese
hw,b=g(wTx+b)=g(∑mi=1αiyi⟨xi,x⟩+b)
Kernel Trick
由上我们只需知道 ⟨xi,xj⟩ 和 ⟨xi,x⟩就能得到一个最优几何间隔分类器并进行预测
当数据线性不可分,把数据用 ϕ 变换到高维空间使其在高维空间中线性可分,那么只需 代换为 ⟨ϕ(xi),ϕ(xj)⟩
定义核函数K(xi,xj)=⟨ϕ(xi),ϕ(xj)⟩
常见的核函数
K(x,z)=(xTz+c)d
K(x,z)=exp(−‖x−z‖2σ2)
Mercer定理
合法核函数的充要条件
假设 k 是核函数, 给定集合 {x1,x2,…,xm} 令 K=Rm×mKij=k(xi,xj),那么对于任意 z∈Rm,有
zTKz=∑i∑jziϕ(xi)Tϕ(xj)zj=∑i∑jzi∑l(ϕ(xi))l(ϕ(xj))lzj=∑l∑i∑jzi(ϕ(xi))l(ϕ(xj))lzj=∑l(∑iziϕ(xi)l)2≥0
即 K 是对称半正定矩阵
软间隔分类器
当
- 数据线性不可分或者映射到高维依然线性不可分
- 数据中线性可分,但因为噪声点使得最大间隔分类器的结果不合理
我们引入软间隔分类器,对分类错误的点加入惩罚,问题变为:
minw,b,ξ12‖w‖2+C∑mi=1ξi
s.t.
yi(wTxi+b)≥1−ξiξi≥0
Larangian:
L(w,b,ξ,α,r)=12‖w‖2+C∑mi=1ξi−∑mi=1αi(yi(wTxi+b)−1+ξi)−∑mi=1riξi
dual problem:
maxαi≥0ri≥0minw,b,ξL(w,b,ξ,α,r)
由KKT条件得
∇wL=0⇒w=∑iαiyixi
∇bL=0⇒∑iyiαi=0
∇ξiL=0⇒αi+ri=C
代入整理得
maxC≥αi≥0∑yiαi=0W(α)W(α)=∑mi=1αi−12∑i∑jyiyjαiαj⟨xi,xj⟩
由KKT对偶互补条件得
αi(1−ξi−yi(wTxi+b))=0riξi=(C−αi)ξi=0
那么根据 αi的取值我们可以将数据点分为三种:
- non-SV: αi=0⇒ξi=0⇒yi(wTxi+b)≥1 没有违反边界
- bounded-SV: αi=C⇒yi(wTxi+b)=1−ξi⇒yi(wTxi+b)≤1 在边界上或者边界内或者违反了边界
- free-SV: C>αi>0⇒yi(wTxi+b)=1 在边界上
SMO
为了求解对偶问题,采用固定其他参数,在约束条件下优化剩下两个参数,迭代求解。
Larangian Duality
Dual problem
假设原始问题p是
minwf(w)
s.t.
gi(w)≤0i=1,…,khi(w)=0i=1,…,l
其目标函数最优值为 p∗
Larangian:
L(ω,α,β)=f(w)+∑ki=1αigi(w)+∑li=1βihi(w)
我们定义
Θp(ω)=maxα,βs.t.αi≥0L(ω,α,β)
那么
p∗=minwmaxα,βs.t.αi≥0L(ω,α,β)
定义
ΘD(α,β)=minwL(ω,α,β)
那么原始问题p的对偶问题d为
maxα,βs.t.αi≥0ΘD(α,β)
目标函数最优值为 d∗
d∗=maxα,βs.t.αi≥0minwL(ω,α,β)
定理: 若原始问题和对偶问题都有最优值,那么 d∗≤p∗
推论: 设 ω∗ 和 α∗β∗ 分别是原始问题和对偶问题的可行解,如果 d∗=p∗,那么 ω∗和 α∗β∗都是原始问题和对偶问题的最优解。
KKT condition
假设 f 为convex函数,hi 是仿射函数( hi(w)=aTiw+b),gi严格feasible?, 那么存在 w∗α∗β∗使得 w∗和 α∗β∗分别是原始问题和对偶问题的最优解的充要条件为
∇ωL(ω∗,α∗,β∗)=0
∇αL(ω∗,α∗,β∗)=0
∇βL(ω∗,α∗,β∗)=0
α∗igi(w∗)=0
α∗i≥0
gi(w∗)≤0
hi(w∗)=0