篱笆教育:怎样理解 Curse of Dimensionality(维数灾难)?
篱笆教育:怎样理解 Curse of Dimensionality(维数灾难)?
篱笆资讯
篱笆教育:怎样理解 Curse of Dimensionality(维数灾难)?
维度灾难是机器学习中非常核心的一个概念,它对于不论是面试或者是理解机器学习中一些问题都是很重要的。

比如在《机器学习的本质是不是就是数据拟合?》这个问题里我们就提到,我们要更好得理解Yann Lecun教授说的“深度学习是在外推而不是插值”,就需要先理解维度灾难是什么。

维度灾难其实并不复杂,用最通俗的话来大致描述下,就是:

当数据真的很高维的时候(特征很多的时候),高维空间里的数据互相之间将有着相似的距离。也就是是没有谁和谁更近,谁和谁更远的概念了。

如果用正式一些的式子表示出来就是:

N是数据大小,D是数据维度。

这个定理说的就是,对于确定大小的一个数据集。当数据的维度也就是D,趋于无限大的时候,数据之间的最大距离dmax,小于数据之间的最小的距离dmin的(1+epsilon)倍的概率,将趋于1.换句话说就是我们之前说的,数据之间距离都几乎一样近了。再换句话说,距离,这个概念在高维空间失效了。

大家可以想象,对于一些基于距离的模型,比如KNN或者Kmeans来说,如果数据过高,那么模型将因为维度灾难而有着非常非常糟糕的性能。

与维度灾难对应的,就是The blessing of large data。当数据的维度太大时,为了缓解维度灾难,除了降维的技术以外,把数据量提高也可以缓解。

毕竟就算数据"present as high dimensionality, they usually live in a low dimensional surface. Or in another word often data is not 'truly high dimensional'given large data"(以高维形式存在,也通常显示为低维。或者换句话说,由于数据量大,数据往往不是“真正的高维”)。
coffee 直连行业大牛导师,1v1模拟面试与求职指导
mentors
airplay 实战与求职精品课程
数据科学
软件工程
人工智能
金融商科
产品经理
产品设计
bookmark 2000+名企面试真题
amazon google tiktok microsoft meta