长沙教育类网站建设胶州经济技术开发区建设局网站-沈阳市网站建设公司-Seo优化

长沙教育类网站建设,胶州经济技术开发区建设局网站,平面设计论文5000字,新乡网站建设加盟电话如何有效使用t-SNE 尽管t-SNE在可视化高维数据方面极其有用#xff0c;但其生成的图表有时可能令人费解或产生误导。通过在简单案例中探索其行为#xff0c;我们可以学习如何更有效地使用它。一种探索高维数据的流行方法是t-SNE#xff0c;由van der Maaten和Hinton于2008年…如何有效使用t-SNE尽管t-SNE在可视化高维数据方面极其有用但其生成的图表有时可能令人费解或产生误导。通过在简单案例中探索其行为我们可以学习如何更有效地使用它。一种探索高维数据的流行方法是t-SNE由van der Maaten和Hinton于2008年引入。该技术已在机器学习领域广泛传播因为它具有几乎神奇的能力可以从数百甚至数千维的数据中创建引人注目的二维“地图”。虽然令人印象深刻但这些图像很容易被误读。本文的目的就是防止一些常见的误读。我们将通过一系列简单示例来说明t-SNE图可以展示什么以及不能展示什么。t-SNE技术确实很有用——但前提是你知道如何解读它。在深入之前如果你以前没有接触过t-SNE这里有一些你需要了解的数学背景。其目标是获取高维空间中的一组点并在低维空间通常是2D平面中找到这些点的忠实表示。该算法是非线性的并适应底层数据对不同的区域执行不同的变换。这些差异可能是混淆的主要来源。t-SNE的第二个特点是有一个可调参数“困惑度”它粗略地表示如何在数据的局部和全局方面之间平衡注意力。从某种意义上说该参数是对每个点拥有的近邻数量的猜测。困惑度值对生成的图片有复杂的影响。原始论文指出“SNE的性能对困惑度的变化相当稳健典型值在5到50之间。”但实际情况比这更微妙。要充分利用t-SNE可能意味着需要分析具有不同困惑度的多个图。复杂性不止于此。例如t-SNE算法在连续运行中并不总是产生相似的输出并且还有与优化过程相关的其他超参数。1. 这些超参数真的很重要让我们从t-SNE的“你好世界”开始一个包含两个广泛分离的簇的数据集。为了尽可能简单我们将考虑2D平面中的簇如左侧图所示。为清晰起见两个簇用颜色编码。右侧的图表显示了五个不同困惑度值的t-SNE图。在van der Maaten Hinton建议的5 - 50范围内的困惑度值下图表确实显示了这些簇尽管形状非常不同。超出该范围情况就变得有点奇怪。困惑度为2时局部变化占主导地位。困惑度为100的图像簇合并说明了一个陷阱为了使算法正常运行困惑度实际上应该小于点的数量。否则实现可能会产生意想不到的行为。上面的每个图都是用5000次迭代、学习率通常称为“epsilon”为10生成的并且在第5000步达到了稳定点。这些值有多大影响根据经验最重要的事情是迭代直到达到稳定配置。上面的图像显示了困惑度为30时的五次不同运行。前四次在稳定之前停止。经过10、20、60和120步后你可以看到簇的看似1维甚至点状的布局。如果你看到一个具有奇怪“收缩”形状的t-SNE图很可能该过程过早停止了。不幸的是没有固定的步数能产生稳定的结果。不同的数据集可能需要不同次数的迭代才能收敛。另一个自然的问题是使用相同超参数的不同运行是否会产生相同的结果。在这个简单的双簇示例以及我们讨论的大多数其他示例中多次运行会得到相同的全局形状。然而某些数据集在不同的运行中会产生明显不同的图我们稍后将给出其中一个示例。从现在开始除非另有说明我们将展示5000次迭代的结果。这通常足以收敛于本文中相对较小的示例。然而我们将继续展示一系列困惑度值因为这似乎在每种情况下都会产生很大差异。2. t-SNE图中的簇大小毫无意义到目前为止一切顺利。但如果两个簇具有不同的标准差因此大小不同怎么办我们所说的大小是指边界框测量值而不是点的数量。以下是平面中高斯混合的t-SNE图其中一个的离散度是另一个的10倍。令人惊讶的是两个簇在t-SNE图中看起来大小差不多。这是怎么回事t-SNE算法根据数据集中的区域密度变化调整其“距离”概念。因此它自然扩展密集的簇并收缩稀疏的簇从而使簇大小均匀化。需要明确的是这与任何降维技术都会扭曲距离这一普遍事实是不同的效果。毕竟在这个例子中所有数据一开始就是二维的。相反密度均衡是按设计发生的并且是t-SNE的一个可预测特征。然而归根结底你无法在t-SNE图中看到簇的相对大小。3. 簇间距离可能毫无意义那么簇之间的距离呢下图显示了三个高斯分布每个有50个点其中一对之间的距离是另一对的5倍。在困惑度50时该图很好地显示了全局几何形状。对于较低的困惑度值簇看起来是等距的。当困惑度为100时我们看到全局几何形状很好但其中一个簇错误地看起来比其他簇小得多。既然困惑度50在这个例子中给了我们一个好图如果我们想看到全局几何形状是否总是可以将困惑度设置为50遗憾的是不行。如果我们向每个簇添加更多点困惑度必须增加以进行补偿。以下是每个簇有200个点而不是50个的三个高斯簇的t-SNE图。现在试验的困惑度值都没有给出好结果。看到全局几何形状需要微调困惑度是个坏消息。现实世界的数据可能具有不同数量元素的多个簇。可能没有一个困惑度值可以捕获所有簇之间的距离——遗憾的是困惑度是一个全局参数。解决这个问题可能是未来研究的一个有趣领域。基本结论是t-SNE图中分离良好的簇之间的距离可能毫无意义。4. 随机噪声看起来并不总是随机的一个经典的陷阱是认为你在真正只是随机的数据中看到了模式。识别所见之处的噪声是一项关键技能但建立正确的直觉需要时间。t-SNE的一个棘手之处在于它抛弃了大量现有的直觉。下图显示了真正的随机数据从100维单位高斯分布中抽取的500个点。左图是投影到前两个坐标上的图。困惑度为2的图似乎显示了明显的簇。如果你正在调整困惑度以突出数据中的结构你可能会认为你中了大奖。当然由于我们知道点云是随机生成的它没有统计学上有趣的簇那些“团块”没有意义。如果你回顾之前的例子低困惑度值常常导致这种分布。将这些团块识别为随机噪声是解读t-SNE图的重要组成部分。不过还有一件有趣的事情这可能对t-SNE来说是一个优点。起初困惑度30的图看起来根本不像高斯分布云的不同区域之间只有轻微的密度差异而且点似乎可疑地均匀分布。事实上这些特征说明了高维正态分布的一些有用特性它们非常接近球面上的均匀分布均匀分布点之间的间距大致相等。从这个角度来看t-SNE图比任何线性投影都更准确。5. 有时你可以看到一些形状数据以完全对称的方式分布是罕见的。让我们看一下50维空间中轴对齐的高斯分布其中坐标i的标准差为1/i。也就是说我们正在观察一个细长的椭球形点云。对于足够高的困惑度值细长的形状很容易解读。另一方面在低困惑度下局部效应和无意义的“聚集”占据了中心位置。更极端的形状也会显现但同样只有在正确的困惑度下。例如这里是二维空间中的两个簇每个有75个点排列在带有一些噪声的平行线上。对于一定范围的困惑度长簇看起来接近正确这是令人安心的。然而即使在最好的情况下也存在细微的扭曲在t-SNE图中线条略微向外弯曲。原因在于像往常一样t-SNE倾向于扩展数据的密集区域。由于簇的中间比两端周围的空白空间少因此算法会放大它们。6. 对于拓扑结构你可能需要多张图有时你可以从t-SNE图中读出拓扑信息但这通常需要多个困惑度下的视图。最简单的拓扑特性之一是包含关系。下图显示了50维空间中的两组点每组75个点。两者都是从以原点为中心的对称高斯分布中采样的但一个的离散度是另一个的50倍。实际上“小”分布包含在大的分布中。困惑度30的视图正确地显示了基本拓扑但t-SNE再次极大地夸大了较小组点的大小。在困惑度50时出现了一个新现象外组变成了一个圆因为该图试图描绘其所有点与内组距离大致相同的事实。如果你只看这张图很容易将这些外部点误读为一维结构。那么更复杂的拓扑类型呢这可能对数学家来说比对实际数据分析师更亲切但有趣的低维结构偶尔会在现实世界中被发现。考虑一组在三维空间中追踪链环或结的点。再次观察多个困惑度值可以提供最完整的图景。低困惑度值给出两个完全分离的环高困惑度值显示一种全局连通性。三叶结是一个有趣的例子说明多次运行如何影响t-SNE的结果。以下是困惑度2视图的五次运行。该算法两次稳定在一个圆上这至少保留了内在的拓扑结构。但在三次运行中它最终得到了三个不同的解引入了人为的断裂。使用点的颜色作为指导你可以看到第一次和第三次运行的结果相差甚远。然而困惑度50的五次运行给出了在对称性范围内视觉上相同的结果。显然有些问题比其他问题更容易优化。结论t-SNE变得如此流行是有原因的它非常灵活并且通常能在其他降维算法无法找到结构的地方找到结构。不幸的是这种灵活性使得解读它变得棘手。在用户视线之外算法进行了各种调整以使其可视化更整洁。不过不要让隐藏的“魔力”吓跑你对整个技术的兴趣。好消息是通过研究t-SNE在简单案例中的行为有可能对其工作原理建立直觉。更多精彩内容请关注我的个人公众号公众号办公AI智能小助手或者我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

长沙教育类网站建设胶州经济技术开发区建设局网站

厦门定制网站建设中山建设局网站

pv3d 优秀网站阿里指数查询手机版

自己做网站卖二手车建立网站站点

中国建设网官方网站硅灰深圳效果好的免费网站建设

直播网站做收入流水网站开发多语言

接单做一个网站多少钱成都推广运营公司

长沙教育类网站建设胶州经济技术开发区 建设局 网站

厦门定制网站建设中山建设局网站

pv3d 优秀网站阿里指数查询手机版

自己做网站卖二手车建立网站站点

中国建设网官方网站硅灰深圳效果好的免费网站建设

直播网站做收入流水网站开发多语言

接单做一个网站多少钱成都推广运营公司

长沙教育类网站建设胶州经济技术开发区建设局网站