ML

Machine Learning笔记(4)

Classifier

Posted by mtt on September 27, 2018

Geometric margin and functional margin

Functional margin

一个超平面 wTx+b=0 关于点 (xi,yi) 的函数间隔是
ˆδi=yi(wTxi+b)
关于训练集S的函数间隔是
δ=miniˆδi

Geometric margin

一个超平面 wTx+b=0 关于点 (xi,yi) 的几何间隔是
δi=yi[(ww)Txi+bw]
wT(xiδiww)+b=0
关于集合S的几何间隔是
δ=miniδi
也就是说 δi=ˆδiw
几何间隔不随着w的变化而变化

Max Margin Classifier

目标:
假设数据线性可分,选取适当的线性分类面的原则:最大化几何间隔(当 w为1时,等于函数间隔)
maxδ,w,bδ
s.t. yi(wTxi+b)δw=1
or
maxˆδ,w,bˆδw
s.t. yi(wTxi+b)ˆδ
or令函数间隔放缩到1(要求线性可分),那么所求即为
minw,bw2
s.t. yi(wTxi+b)1
求解这个问题令
gi(w,b)=yi(wTxi+b)+10
由KKT对偶互补条件得
αi>0gi(w,b)=0ˆδi=1
此时 gi(w,b) 是被激活的constrains, 对应的向量为support vectors
对应的拉格朗日函数为
L(w,b,α)=12w2mi=1αi(yi(wTxi+b)1)
dual problem
maxαs.t.αi0OD(α)
OD(α)=minw,bL(w,b,α)
wL(w,b,α)=wmi=1αiyixi=0
bL(w,b,α)=mi=1yiαi=0
把w代入L得到
W(α)=mi=1αi12mi,j=1yiyjαiαjxi,xjmi=1αiyib=mi=1αi12mi,j=1yiyjαiαjxi,xj
那么对偶问题即为
maxαW(α)
s.t.
αi0iyiαi=0
也就是说为了最大化 ΘD(α)(α0), 如果 iyiαi=0,那么 ΘD(α)=W(α),否则 ΘD(α)= 由对偶问题求出 α,进一步求出 wb
其hypothese
hw,b=g(wTx+b)=g(mi=1αiyixi,x+b)

Kernel Trick

由上我们只需知道 xi,xjxi,x就能得到一个最优几何间隔分类器并进行预测
当数据线性不可分,把数据用 ϕ 变换到高维空间使其在高维空间中线性可分,那么只需 代换为 ϕ(xi),ϕ(xj)
定义核函数K(xi,xj)=ϕ(xi),ϕ(xj)

常见的核函数

K(x,z)=(xTz+c)d
K(x,z)=exp(xz2σ2)

Mercer定理

合法核函数的充要条件
假设 k 是核函数, 给定集合 {x1,x2,,xm}K=Rm×mKij=k(xi,xj),那么对于任意 zRm,有 zTKz=ijziϕ(xi)Tϕ(xj)zj=ijzil(ϕ(xi))l(ϕ(xj))lzj=lijzi(ϕ(xi))l(ϕ(xj))lzj=l(iziϕ(xi)l)20
K 是对称半正定矩阵

软间隔分类器

  • 数据线性不可分或者映射到高维依然线性不可分
  • 数据中线性可分,但因为噪声点使得最大间隔分类器的结果不合理

我们引入软间隔分类器,对分类错误的点加入惩罚,问题变为:
minw,b,ξ12w2+Cmi=1ξi
s.t.
yi(wTxi+b)1ξiξi0
Larangian:
L(w,b,ξ,α,r)=12w2+Cmi=1ξimi=1αi(yi(wTxi+b)1+ξi)mi=1riξi
dual problem:
maxαi0ri0minw,b,ξL(w,b,ξ,α,r)
由KKT条件得
wL=0w=iαiyixi
bL=0iyiαi=0
ξiL=0αi+ri=C
代入整理得
maxCαi0yiαi=0W(α)W(α)=mi=1αi12ijyiyjαiαjxi,xj
由KKT对偶互补条件得
αi(1ξiyi(wTxi+b))=0riξi=(Cαi)ξi=0 那么根据 αi的取值我们可以将数据点分为三种:

  1. non-SV: αi=0ξi=0yi(wTxi+b)1 没有违反边界
  2. bounded-SV: αi=Cyi(wTxi+b)=1ξiyi(wTxi+b)1 在边界上或者边界内或者违反了边界
  3. free-SV: C>αi>0yi(wTxi+b)=1 在边界上
SMO

为了求解对偶问题,采用固定其他参数,在约束条件下优化剩下两个参数,迭代求解。

Larangian Duality

Dual problem

假设原始问题p是
minwf(w)
s.t.
gi(w)0i=1,,khi(w)=0i=1,,l
其目标函数最优值为 p
Larangian:
L(ω,α,β)=f(w)+ki=1αigi(w)+li=1βihi(w)
我们定义
Θp(ω)=maxα,βs.t.αi0L(ω,α,β)
那么
p=minwmaxα,βs.t.αi0L(ω,α,β)

定义
ΘD(α,β)=minwL(ω,α,β)
那么原始问题p的对偶问题d为
maxα,βs.t.αi0ΘD(α,β)
目标函数最优值为 d
d=maxα,βs.t.αi0minwL(ω,α,β)
定理: 若原始问题和对偶问题都有最优值,那么 dp
推论:ωαβ 分别是原始问题和对偶问题的可行解,如果 d=p,那么 ωαβ都是原始问题和对偶问题的最优解。

KKT condition

假设 f 为convex函数,hi 是仿射函数( hi(w)=aTiw+b),gi严格feasible?, 那么存在 wαβ使得 wαβ分别是原始问题和对偶问题的最优解的充要条件为
ωL(ω,α,β)=0
αL(ω,α,β)=0
βL(ω,α,β)=0
αigi(w)=0
αi0
gi(w)0
hi(w)=0