Machine Learning笔记(5)

准备知识

training error/empirical risk/empirical error:
给定训练集 $S = \{(x^i, y^i)\} \quad i = 1, \ldots, m$, $(x^i, y^i)$服从独立同分布 $D$中,对于假设(hypothesis)h,我们定义训练误差/经验风险/经验误差为:
$\hat\varepsilon(h) = \frac{1}{m} 1\{h(x^i) \neq y^i\}$
generalization error:
表示从分布D中随机抽取样本(x,y),h讲其分类错误的概率 $\varepsilon(h) = P_{(x,y) ~ D}(h(x) \neq y)$

empirical risk minimization

经验误差最小化是
$\hat h = \underset{h \in H}{\mathrm{argmin}}\; \hat\varepsilon(h)$
其中H是hypothesis class The union bound:
令 $A_1, \ldots, A_k$ 是k个事件，那么 $P(A_1 \cup \ldots \cup A_k) \le P(A_1) + \ldots + P(A_k)$
Hoeffding inequality/Chernoff bound:
令 $Z_1, \ldots , Z_m$ 是m个服从 $Bernoulli(\phi)$ 的独立同分布变量，其均值 $\hat\phi = \frac{1}{m}\sum_{i=1}^m Z_i$，那么对于任意给的的 $\gamma \gt 0$，有
$P(\lvert \phi - \hat\phi \rvert \gt \gamma) \le 2exp(-2{\gamma}^2m)$

tradeoff between “Bias” and “Variance”

有限假设空间

$H = \{h_1, \ldots, h_k\}$ 包含k个hypotheses, $h_i : X \rightarrow \{0, 1\}$
对于固定的 $h_j$,我们定义 $Z_i = 1\{h_j(x^i) \neq y^i\}$, 由于 $(x^i, y^i)$是服从概率分布D的IID,那么 $Z_i$ 也是IID,那么
$P(Z_i = 1) = P_{(x,y) \sim D}(h_j(x) \neq y) = \varepsilon(h_j)$
$\frac{1}{m}\sum_{i=1}^m Z_i = \frac{1}{m}\sum_{i=1}^m 1 \{h_j(x^i) \neq y^i\} = \hat\varepsilon(h_j)$
由Hoeffding不等式得
$P(\lvert \varepsilon(h_j) - \hat\varepsilon(h_j) \rvert \gt \gamma) \le 2e^{-2\gamma^2 m}$
设事件 $A_j = \lvert \varepsilon(h_j) - \hat\varepsilon(h_j) \rvert \gt \gamma$,那么 $P(A_j) \le 2e^{-2\gamma^2 m}$
$P(\exists h_j \in H, \lvert \varepsilon(h_j) - \hat\varepsilon(h_j) \rvert \gt \gamma) \\ = P(A_1 \cup \ldots \cup A_k) \\ \le \sum_{i=1}^k P(A_i) \\ \le \sum_{i=1}^k 2e^{-2\gamma^2 m} \\ = 2ke^{-2\gamma^2 m}$
$P(\forall h_j \in H, \lvert \varepsilon(h_j) - \hat\varepsilon(h_j) \rvert \le \gamma) \ge 1 - 2ke^{-2\gamma^2 m}$
$\forall h_j \in H, \lvert \varepsilon(h_j) - \hat\varepsilon(h_j) \rvert \le \gamma$称为uniform convergence

推论:
至少 $1-\delta$正确的概率,我们可以说 $\forall h_j \in H, \lvert \varepsilon(h_j) - \hat\varepsilon(h_j) \rvert \le \gamma$ ,当 $m \ge \frac{1}{2\gamma ^2}\log{\frac{2k}{\delta}}$ 这也叫做”sample complexity”

至少 $1-\delta$正确的概率,我们有 $\forall h_j \in H, \lvert \varepsilon(h_j) - \hat\varepsilon(h_j) \rvert \le \sqrt {\frac{1}{2m}\log{\frac{2k}{\delta}}}$

$\hat h = \underset{h \in H}{argmin}\; \hat\varepsilon(h)$
$h^* = \underset{h \in H}{argmin}\; \varepsilon(h)$
假设uniform convergence成立,那么
$\varepsilon(\hat h) \le \hat \varepsilon(\hat h) + \gamma \\ \le \hat \varepsilon(h^* ) + \gamma \\ \le \varepsilon(h^* ) + 2\gamma$
推得定理如下
Theorem:
令 $\lvert H \rvert = k$, 给定任意的 $m, \delta$, 那么至少 $1 - \delta$正确的概率,我们有
$\varepsilon(\hat h) \le (\underset{h \in H}{min}\;\varepsilon(h)) + 2\sqrt{\frac{1}{2m}\log{\frac{2k}{\delta}}}$
Sample complexity bound:
令 $\lvert H \rvert = k$, 给定任意的 $\gamma, \delta$, 那么为了至少 $1 - \delta$正确的概率, $\varepsilon(\hat h) \le (\underset{h \in H}{min}\;\varepsilon(h)) + 2\gamma$ 成立,m需要满足:
$m \ge \frac{1}{2\gamma^2}\log{\frac{2k}{\delta}} = O(\frac{1}{\gamma^2}\log{\frac{k}{\delta}})$

无限假设空间

给定集合 $S = \{x^1, \ldots, x^d\}$，我们说H shatters S当且仅当对于S标签的任意赋值 ${y^1, \ldots, y^d}$ , $\exists h \in H s.t. h(x^i) = y^i \; for \; all \; x^i$
给定假设类H，定义H的 VC(Vapnik-Chervonenkis) dimension, VC(H)是能被H shatters的最大集合的大小。
Theorem:
给定H, 令 $d = VC(H)$ ,那么有至少 $1 - \delta$的概率，我们有 $\forall h \in H$,
$\lvert \varepsilon(h) - \hat\varepsilon(h) \rvert \le O(\sqrt{\frac{d}{m}\log \frac{m}{d} + \frac{1}{m}\log{\frac{1}{\delta}}})$
那么有至少 $1- \delta$的概率，我们有
$\varepsilon(\hat h) \le \varepsilon(h^* ) + O(\sqrt{\frac{d}{m}\log \frac{m}{d} + \frac{1}{m}\log{\frac{1}{\delta}}})$
Corollary:
为了，$\lvert \varepsilon(h) - \hat \varepsilon(h) \rvert \le \gamma \; \forall h \in H$ (因此 $\varepsilon(\hat h) \le \varepsilon(h^* ) + 2\gamma$)有至少 $1- \delta$正确的概率,那么需要 $m = O_{\gamma, \delta}(d)$

Model Selection

cross validation

hold-out/simple cross validation
k-fold cross validation
leave-one-out cross validation

Feature Selection

wrapper model feature selection
foward selection
backward selection
filter feature selection
计算互信息 $MI(x_i, y) = \underset{x_i \in \{0,1\}}{\sum}\underset{y \in \{0,1\}}{\sum}\; p(x_i, y)\log{\frac{p(x_i, y)}{p(x_i)p(y)}}$ or $KL(p(x_i,y)\lVert p(x_i)p(y))$ 选取top K个

MLE & MAP

maximum likelihood

看成固定的未知参数
$\theta_{ML} = \underset{\theta}{argmax}\;\prod_{i=1}^m p(y^i|x^i;\theta)$

maximum a posteriori

看成随机变量
$p(\theta \mid S) = \frac{p(S \mid \theta)p(\theta)}{p(S)} \\ = \frac{(\prod_{i=1}^m p(y^i \mid x^i, \theta))p(\theta)}{\int_{\theta}(\prod_{i=1}^m p(y^i \mid x^i, \theta)p(\theta)){\rm d}\theta}$
当预测时
$p(y\mid x,S) = \int_{\theta}p(x \mid y,\theta)p(\theta \mid S){\rm d}\theta$
$E[y \mid x,S] = \int_{y}yp(y \mid x,S){\rm d}y$
取 $\theta = E[\theta \mid S]$ 但是 $p(\theta \mid S)$ 难以计算
$\theta_{MAP} = \underset{\theta}{\mathrm{argmax}}\;p(\theta \mid S) = \underset{\theta}{\mathrm{argmax}}\prod_{i=1}^m p(y^i \mid x^i , \theta)p(\theta)$

Learning Theory