植的博客

最近根据周志华的《机器学习》复习了一下 SVM 算法，SVM 确实称得上机器学习的代表算法之一，把涉及的概念整理一下。

首先，从一个二分类器说起。SVM 实际上解决的是一个线性的模型，也就是说，假定存在这么一个表达式：

$$w^T x + b = 0$$

能够把数据恰到好处地分割为两部分。即对于样本点 $(x_i, y_i)$ ，有如下不等式成立

$$
\begin{cases}
w^T x_i + b \ge +1, & y_i=+1; \
w^T x_i + b \le -1, & y_i=-1;
\end{cases}
$$

当上述不等式的等号成立的时候，那些样本点 $(x_i, y_i)$ 称为支持向量。而分割平面到支持向量之间的距离为

$$
\gamma = \frac{2}{|| w||}
$$

所谓的“恰到好处”指的是使 $\gamma$ 最大的时候。

#损失函数

在得到了 SVM 的定义以后，可以归纳出 SVM 的优化目标将会分为两部分，即满足最大化分类间隔，以及在这个目的下约束所有分类点都应该满足分类表达式：

$$
\begin{align*}
& \max_{w,b} \quad \frac{2}{||w||} \
& \begin{array}{r@{\quad}r@{}@{\quad}} s.t. & y_i ( w^T x_i + b) \ge 1, & i=1,2,3 \end{array} .
\end{align*}
$$

上式是一个带约束的最优化问题，采用最优化理论的对偶解法。把优化式转换为

$$
L(w,b,\alpha) = \frac{1}{2}||w||^2 + \sum_{i=1}^m \alpha_i (1 - y_i (w^T x_i + b))
$$

即得到了 SVM 的损失函数。

#软间隔以及正则化

但是现实世界里可能没有那么完美的分类平面，噪声的存在使得这个世界不是非黑即白。为了解决噪声，我们要允许数据犯错，则优化目标转化为

$$
\min_{w,b} \frac{1}{2}||w||^2 + C \sum_{i=1}^m \ell_{0/1}(y_i (w^T x_i + b) - 1)
$$

其中

$$
\ell_{0/1}(z) = \begin{cases} 1, & \text{if} \quad z > 0 \ 0, & \text{otherwise.} \end{cases}
$$

容易看出，当$C$ 趋近无穷大的时候，要求 $\mathcal{l}(z)=0$ 恒成立，否则将不能被优化，此时对犯错的风险降至 0 。反之， $C$ 越接近 0 则越容许分类器犯错。

然而，$\ell_{0/1}(z)$ 是一个分段函数，意味着该函数不能直接求导，因此，有很多函数试图替代这个函数，例如：

$$
\ell_{log}(z) = \log (1 + \exp(-z))
$$

当把上式替代 $\ell_{0/1}(z)$ 后，那么损失函数变为

$$
\begin{align*}
& \frac{1}{2}||w||^2 + C \sum_{i=1}^m \log(1 + \exp(1 - y_i (w^T x_i + b))) \
\rightarrow \quad & \sum_{i=1}^m \log(1 + \exp(1 - y_i (w^T x_i + b))) + C \frac{1}{2}||w||^2
\end{align*}
$$

看着是不是很像逻辑回归？比逻辑回归多的部分，就是多加了个 $w$ 项。在逻辑回归里，也可以做类似的优化，称为正则化项，依据就是当参数越少，泛化能力越好。当然，在 SVM 中，实际上就是软间隔的最大化了。由此，两个看起来不相关的模型在这里巧合地相互解释。

#结构风险与经验风险

从结构和经验两部分来看，把上述损失函数分拆，可以得到如下两部分：

$$
\underbrace{\frac{1}{2} ||w||^2} _ {结构风险} + \overbrace{C \sum_{i=1}^m \ell(y_i(w^T x_i + b) - 1)}^{经验风险}
$$

每一个机器学习的目标函数可能都会包括这两部分，即结构风险和经验风险。这两者在 SVM 上表现得尤为显著。其中，第一部分结构风险，就形象地表达了 SVM 模型的平面结构，它的最小化偏向使得分类平面向着支持向量间隔最大的方向发展。而经验风险在引入软间隔的时候就说明了，就是是否允许数据犯错，对数据噪声的容忍程度。换句话说，以多大的程度信任给定的数据。

但是为什么说是风险呢？数据挖掘的场景下，原始数据是“肮脏”的，不真实的。数据有一些偶然和随机的成分，即使是今天所谓的大数据场景下，获得的数据也是不全面的。由于仪器的误差，有些数据可能存在一些噪声，使得不是该类的样本被测得在该类下，如果一味拟合过去的数据就会误导未来的预测。这就是所谓经验风险。另一方面，模型越复杂对数据的解释能力就越强，例如二次函数生成的数据可以被四次甚至更高次的模型解释，但是两者却不会再所有点上重合。显然，二次模型产生的点应该用二次模型来解读，模型过于复杂，反而出现所谓过度解读的问题，对未出现过的点解释错误。这就是所谓的结构风险。

#核函数方法

核函数是 SVM 中的一个重要优化手段，但其他分类器也可能实现核函数的优化。核方法说的是把样本的特征提升到一定的维度上，使得在当前维不可分的点在高维空间下可分。但是 SVM 中的核函数却不是指通过该函数提升到高维空间，而是算法实现上的一个细节。

注意到损失函数中，

$$
w = \sum_{i=1}^m \alpha_i y_i x_i^T
$$

也就是说，求得的分类平面是

$$
\sum_{i=1}^m \alpha_i y_i x_i^T x + b
$$

如果通过函数 $\phi(x)$ 把 $x$ 提升到一个新的高维空间，那么，分类平面将变为

$$
\sum_{i=1}^m \alpha_i y_i \phi(x_i)^T \phi(x) + b
$$

实际上需要计算的是 $\phi(x_i)^T\phi(x)$ 而不是 $\phi(x)$，因此，核函数就是说

$$
\kappa(x, y)=\phi(x)^T \phi(y)
$$

的过程，而非把样本特征向量转换到高维的函数。

SVM 模型复习

#损失函数

#软间隔以及正则化

#结构风险与经验风险

#核函数方法