[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 好消息是，确实存在改进方法我们接下来就讨论其中的一些首先，我们要介绍KD-树 KD-树是一种数据结构，能够高效地表示我们需要的数据具体来说，可以用KD-树把文档所在的空间分区具体来说，可以用KD-树把文档所在的空间分区分区面平行于对应坐标轴每个分区内的点存在一个列表中通过这样一个数据结构我们可以对搜索域进行高效剪枝也就是说不是每一个查询都需要遍历所有点有时是必须的，有时则不在中低维空间内，KD-树都很有效空间维度对应着特征数目，对这点我们稍后详谈首先，我们看一下KD-树的构造过程我们取数据表格例子中只有两个不同特征特征1和特征2 假设这个是词汇表中的第一个词这个是第二个，这列是数据点的索引这些事观测点的索引值这些点如图中所示这个是，特征 1 这个是，特征2 首先，我们把表格中的点分成两组首先，我们把表格中的点分成两组方法是选择一个分区维度，也就是用哪个特征分区以及分区值是多少，即分区阈值以及分区值是多少，即分区阈值例子中，我们以0.5作为分区值用第一个特征分区所以所有右侧的点，第一个特征值都大于0.5，所有左侧的点，第一个特征的值都小于等于0.5 所有左侧的点，第一个特征的值都小于等于0.5 现在，我们回到数据点。若第一个特征的值小于0.5，我们把它放入右侧的YES表中否则我们就把它放入左侧的NO表中然后我们对每一个表格做递归操作然后我们对每一个表格做递归操作也就是说把每个表格再分为两组之前的分区值是0.5 现在我们要选择一个新分区值我们选特征二作为分区维度我们选特征二作为分区维度并选0.1作为分区值假设这里是0.1 这些是特征二大于0.1的情况这些是特征二小于等于0.1的情况图中的这些点对应着表中的这些点这些点的x1的值小于0.5 所以落在竖线的左侧又因为它们的x2的值小于0.1 所以它们落在横线的下方所以条件判断结果是NO, NO，这些点落在这个表格里接下来我们重复之前的过程，继续分割，分割并构造出一个二叉树在树的叶子结点我们得到了对应分区内的一组点每一个叶子结点里包含的数据点表示该分区内的观测点换句话说，如果我们从根结点下溯到任一叶子结点这里的数据点满足路径上所有分叉的条件这里的数据点满足路径上所有分叉的条件这里的数据点满足路径上所有分叉的条件这里的数据点满足路径上所有分叉的条件这里的数据点满足路径上所有分叉的条件此外我们还要保存一项对最近邻搜索很关键的信息此外我们还要保存一项对最近邻搜索很关键的信息对树中的任一给定结点，我们保存如下信息首先是分区维度然后是分区值也就是哪里是分区的阈值第三项是最小外接盒子即包含该结点内所有观测点的最小盒子或者说包含了满足该结点条件的所有点的最小盒子在包含所有的点前提下，这个外接盒子应取最小值在包含所有的点前提下，这个外接盒子应取最小值在包含所有的点前提下，这个外接盒子应取最小值在包含所有的点前提下，这个外接盒子应取最小值如图所示这里是第三点好，希望我讲清楚了这种存储数据的结构非常直观但像这一讲中的许多情景一样， KD树的构造也需要做很多重要的决策 KD树的构造也需要做很多重要的决策 KD树的构造也需要做很多重要的决策比如，如何选择分区维度和分区值以及何时终止分割实际应用中我们采用启发式方法比如选择分区维度时优先分割取值范围最大的维度假设有一个二维的外接盒子我们比较x2和x1的值如果x1比x2大，也许我们就选择分割x1 或者也可以交替分割各个维度然后，关于如何选择分区值一个方法是选择外接盒子内观测点的中位数或者也可以不考虑盒子内数据点的分布，选择盒子的中心点或者也可以不考虑盒子内数据点的分布，选择盒子的中心点那么何时终止呢？我们有几种方案一是当盒子里的点数少于某一定值时，终止分割假设剩m个数据点或者，如果盒子的最小宽度达到某个值同样的，第二种方案无视了盒子内的数据分布而第一种方案使用了数据点的个数来确定终止条件我们举个例子说明这些决策有多重要下面这个例子里，依据数据分布的以中位数分割的启发式算法，和用取值范围中点分割的算法，得出的数据结构完全不同接下来我们将说明这对最近邻搜索的复杂度有怎样的影响接下来我们将说明这对最近邻搜索的复杂度有怎样的影响 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community