【图文】篱笆教育：怎样理解 Curse of Dimensionality（维数灾难）?

篱笆资讯

篱笆教育：怎样理解 Curse of Dimensionality（维数灾难）?

维度灾难是机器学习中非常核心的一个概念，它对于不论是面试或者是理解机器学习中一些问题都是很重要的。

比如在《机器学习的本质是不是就是数据拟合?》这个问题里我们就提到，我们要更好得理解Yann Lecun教授说的“深度学习是在外推而不是插值”，就需要先理解维度灾难是什么。

维度灾难其实并不复杂，用最通俗的话来大致描述下，就是:

当数据真的很高维的时候(特征很多的时候)，高维空间里的数据互相之间将有着相似的距离。也就是是没有谁和谁更近，谁和谁更远的概念了。

如果用正式一些的式子表示出来就是:

N是数据大小，D是数据维度。

这个定理说的就是，对于确定大小的一个数据集。当数据的维度也就是D，趋于无限大的时候，数据之间的最大距离dmax，小于数据之间的最小的距离dmin的(1+epsilon)倍的概率，将趋于1.换句话说就是我们之前说的，数据之间距离都几乎一样近了。再换句话说，距离，这个概念在高维空间失效了。

大家可以想象，对于一些基于距离的模型，比如KNN或者Kmeans来说，如果数据过高，那么模型将因为维度灾难而有着非常非常糟糕的性能。

与维度灾难对应的，就是The blessing of large data。当数据的维度太大时，为了缓解维度灾难，除了降维的技术以外，把数据量提高也可以缓解。

毕竟就算数据"present as high dimensionality, they usually live in a low dimensional surface. Or in another word often data is not 'truly high dimensional'given large data"(以高维形式存在，也通常显示为低维。或者换句话说，由于数据量大，数据往往不是“真正的高维”)。