浅谈降维方法-白红宇

浅谈降维方法

阅读量：6595 次

发布时间：2019-06-24

本文共 1118 字，大约阅读时间需要 3 分钟。

在很多应用领域，例如模式识别，语义分析，文本分类等等，通常是高维的数据。在这种情况下，降维是一个有效的处理这些数据的方法。到目前为止，出现了很多的降维方法，可分为三大类，无监督、监督、半监督。监督的降维方法主要包括线性判别分析（LDA），边缘Fisher分析（MFA），最大边缘准则（MMC）。无监督的降维方法主要包括主成分分析（PCA），局部保持投影（LPP）等等。而半监督降维方法包括了半监督降维（SSDR）、半监督判别分析（SDA）。这篇文章我只谈无监督降维方法。在我看来，随着不断发展，数据的规模越来越大，监督信息的获取是一个问题，无监督才是最后的赢家。监督降维方法和半监督方法以后有时间再写。

为什么要降维

对于一个数据矩阵$X \in R^{n \times p}$，这里的$n$代表样本数，$p$代表变量数，即维度，对于每个变量都是零均值的。在很多的数据中，维度$p$往往很高，例如在图像数据中，我们都知道一个图像就是一个矩阵，假设是一个方阵$m \times m$。我们把一个图像的数据矩阵展开为一个行向量，这样多幅图像按行排列成了一个矩阵，$n$就代表共有多少幅图像，而$p=m \times m$则代表图像的维度。这样的图像数据维度是很高的，比如一个分辨率不高的图像$256 \times 256$，展开成向量时，维度变成了65536维，这个维度是很吓人的，而且这还只是一个分辨率较低的图像。所以我们需要降维。

主成分分析（PCA）

主成分分析是降维方法中最流行的一个方法了。假定有一个数据矩阵$X \in R^{n \times p}$，我们希望找到一个投影矩阵，将$X$投影到低维空间，并且使得投影后的数据样本间有最大方差，所谓最大方差是指各个样本间能够尽量分开。假设投影方向向量为$W \in R^{p \times r}$，对矩阵$X$做投影得到$XW=Y$，$Y \in R^{n \times r}$就是投影后的矩阵，这里的$r$为降维后数据的维度，$r<p$，于是达到了降维的功能，接下来我们来考虑怎么去选择投影矩阵$W$，我们的目标函数是使得降维后矩阵$Y$的样本间方差最大。于是得到以下优化问题：

$$\max \frac{w^{T}X^{T}Xw}{w^{T}w}$$

求解这个问题，相当于对矩阵$X^{T}X$求最大特征值，如果我们求解前$r$个特征值，这前$r$个特征值所对应的特征向量即构成了一个投影矩阵$W$. 主成分分析可以应用到特征脸问题。

局部保持投影（LPP）

转载于:https://www.cnblogs.com/optimization-dkk/p/6811439.html

你可能感兴趣的文章