K-近邻 (K-Nearest Neighbors)
术语表
- 有向
-
有向特征。该算法在有向图上定义良好。
- 有向
-
有向特征。该算法忽略图的方向。
- 有向
-
有向特征。该算法不能在有向图上运行。
- 无向
-
无向特征。该算法在无向图上定义良好。
- 无向
-
无向特征。该算法忽略图的无向性。
- 异构节点
-
异构节点完全支持。该算法有能力区分不同类型的节点。
- 异构节点
-
异构节点允许。该算法平等对待所有选定的节点,无论其标签如何。
- 异构关系
-
异构关系完全支持。该算法有能力区分不同类型的关系。
- 异构关系
-
异构关系允许。该算法平等对待所有选定的关系,无论其类型如何。
- 加权关系
-
加权特征。该算法支持将关系属性用作权重,通过 relationshipWeightProperty 配置参数指定。
- 加权关系
-
加权特征。该算法将每个关系视为同等重要,忽略任何关系权重值。
- 节点属性
-
节点属性特征。该算法使用节点属性。
|
kNN 已收录在端到端示例 Jupyter Notebook 中 |
简介
K-近邻算法计算图中所有节点对的距离值,并在每个节点与其 k 个最近邻居之间创建新的关系。距离是基于节点属性计算的。
该算法的输入是同构图;图中的任何节点标签或关系类型信息都会被忽略。该图不需要是连通的,事实上,节点之间现有的关系将被忽略——除非使用了随机游走采样选项。新的关系是在每个节点与其 k 个最近邻居之间创建的。
K-近邻算法比较每个节点的给定属性。这些属性最相似的 k 个节点即为该节点的 k 个最近邻居。
初始邻居集是随机选择的,并在多次迭代中进行验证和细化。迭代次数受配置参数 maxIterations 限制。如果邻居列表的变化量很小,算法可能会提前停止,这可以通过配置参数 deltaThreshold 来控制。
该实现基于 Wei Dong 等人的 通用相似度度量的有效 K-近邻图构建。算法不是将每个节点与所有其他节点进行比较,而是基于“节点的邻居的邻居很可能已经是其最近邻居”这一假设来选择可能的邻居。该算法的时间复杂度相对于节点数是拟线性的,而不是二次方的。
此外,该算法在每次迭代中只比较所有可能邻居的一个样本,假设最终会看到所有可能的邻居。这可以通过配置参数 sampleRate 来控制。
-
有效的采样率必须介于 0(不含)和 1(含)之间。
-
默认值为
0.5。 -
此参数用于控制准确性和运行时性能之间的权衡。
-
较高的采样率会提高结果的准确性。
-
算法也将需要更多内存并需要更长的计算时间。
-
-
较低的采样率会提高运行时性能。
-
比较中可能会错过一些潜在节点,因此它们可能不会包含在结果中。
-
当遇到的邻居与已知最不相似的邻居具有相同的相似度时,随机选择保留哪个节点可以降低某些邻域未被探索的风险。此行为由配置参数 perturbationRate 控制。
算法的输出是节点与其 k 个最近邻居之间的新关系。相似度分数通过关系属性表示。
有关此算法的更多信息,请参阅
也可以对生成的相似度对中的源节点和/或目标节点应用过滤。您可以为此考虑 过滤后的 K-近邻 算法。
|
运行此算法需要足够的可用内存。在运行此算法之前,我们建议您阅读 内存估算。 |
相似度度量
KNN 算法中使用的相似度度量取决于所配置的节点属性类型。KNN 支持标量数值和数字列表。
整数列表
当属性为整数列表时,可以使用 Jaccard 相似度或重叠系数来衡量相似度。
- Jaccard 相似度
-
图 2. 交集大小除以并集大小
- 重叠系数
-
图 3. 交集大小除以最小集合的大小
这两种度量给出的分数范围都在 [0, 1],不需要进行归一化。当未指定度量标准时,Jaccard 相似度是比较整数列表的默认选项。
浮点数列表
当属性为浮点数列表时,计算两个节点之间的相似度有三种替代方案。
默认使用的度量是余弦相似度。
- 余弦相似度
-
图 4. 向量的点积除以它们长度的乘积
请注意,上述公式给出的分数范围在 [-1, 1]。通过执行 score = (score + 1) / 2,将分数归一化到 [0, 1] 的范围。
另外两种度量包括 Pearson 相关系数和归一化欧几里得相似度。
- Pearson 相关系数
-
图 5. 协方差除以标准差的乘积
如上所述,该公式给出的分数范围在 [-1, 1],同样被归一化到 [0, 1] 的范围。
- 欧几里得相似度
-
图 6. 每对元素之差的平方和的平方根
该公式的结果是一个非负值,但不一定被限制在 [0, 1] 范围内。为了将数字限制在此范围内并获得相似度分数,我们返回 score = 1 / (1 + distance),即我们执行与标量值情况相同的归一化。
多个属性
最后,当指定了多个属性时,两个邻居的相似度是各单独属性相似度的平均值,即这些数字的简单平均值,每个数字都在 [0, 1] 范围内,从而得到一个同样在 [0, 1] 范围内的总分数。
|
这种平均值的有效性高度依赖于上下文,因此在将其应用于您的数据领域时要小心。 |
节点属性和度量配置
要使用的节点属性和度量通过 nodeProperties 配置参数指定。必须至少指定一个节点属性。
此参数接受以下之一
单个属性名称 |
|
属性键到度量的映射 (Map) |
nodeProperties: {
embedding: 'COSINE',
age: 'DEFAULT',
lotteryNumbers: 'OVERLAP'
}
|
字符串和/或映射的列表 |
nodeProperties: [
{embedding: 'COSINE'},
'age',
{lotteryNumbers: 'OVERLAP'}
]
|
按类型划分的可用度量如下
| type | 度量 |
|---|---|
整数列表 |
|
浮点数列表 |
|
对于任何属性类型,也可以指定 DEFAULT 以使用默认度量。对于标量数字,只有默认度量。
初始邻居采样
算法开始时为每个节点挑选 k 个随机邻居。这种随机采样有两种方式。
- 均匀 (Uniform)
-
每个节点的首批
k个邻居是从图中所有其他节点中均匀随机选择的。这是初始采样的经典方法。这也是算法的默认值。请注意,此方法实际上并未使用输入图的拓扑结构。 - 随机游走 (Random Walk)
-
我们从每个节点进行深度偏置的随机游走,并选择我们在该游走中访问的前
k个唯一节点作为我们的初始随机邻居。如果在某个内部定义的O(k)步长的随机游走后,尚未访问到k个唯一邻居,我们将使用上述均匀方法填补剩余的邻居。随机游走方法利用了输入图的拓扑结构,如果拓扑上相近的节点之间更容易找到好的相似度分数,则该方法可能更合适。
|
所使用的随机游走在深度方面有偏置,即它更倾向于选择远离之前访问过的节点,而不是回到它或回到距离它相等的节点。这种偏置的直觉是,随后的比较邻居的邻居的迭代很可能覆盖每个节点的扩展(拓扑)邻域。 |
语法
本节涵盖在每种执行模式下执行 K-近邻算法所使用的语法。我们描述的是命名图变体语法。要了解更多关于通用语法变体的信息,请参阅 语法概述。
CALL gds.knn.stream(
graphName: String,
configuration: Map
) YIELD
node1: Integer,
node2: Integer,
similarity: Float
| 名称 | 类型 | 默认 | 可选 | 描述 |
|---|---|---|---|---|
graphName |
字符串 |
|
否 |
存储在目录中的图的名称。 |
配置 |
Map |
|
是 |
算法特定配置和/或图过滤配置。 |
| 名称 | 类型 | 默认 | 可选 | 描述 |
|---|---|---|---|---|
字符串列表 |
|
是 |
使用给定的节点标签过滤命名图。具有任何给定标签的节点都将被包含。 |
|
字符串列表 |
|
是 |
使用给定的关系类型过滤命名图。具有任何给定类型的关系都将被包含。 |
|
整数 |
|
是 |
用于运行算法的并发线程数。 |
|
字符串 |
|
是 |
可以提供一个 ID 以更轻松地跟踪算法的进度。 |
|
布尔值 |
|
是 |
如果禁用,进度百分比将不会被记录。 |
|
nodeProperties |
字符串或 Map 或字符串/Map 的列表 |
|
否 |
用于相似度计算的节点属性及其所选的相似度度量。接受单个属性键、属性键到度量的映射,或属性键和/或映射的列表(如上所述)。详见 节点属性和度量配置。 |
topK |
整数 |
|
是 |
为每个节点查找的邻居数量。将返回 K-最近邻居。此值不能低于 1。 |
sampleRate |
浮点数 |
|
是 |
限制每个节点比较次数的采样率。值必须介于 0(不含)和 1(含)之间。 |
deltaThreshold |
浮点数 |
|
是 |
以百分比表示的值,用于确定何时提前停止。如果发生的更新少于配置的值,算法将停止。值必须介于 0(不含)和 1(含)之间。 |
整数 |
|
是 |
硬限制,在进行这些迭代后停止算法。 |
|
randomJoins |
整数 |
|
是 |
对于每次迭代,每个节点根据随机选择连接新节点邻居的随机尝试次数。 |
字符串 |
|
是 |
用于为每个节点采样前 |
|
randomSeed |
整数 |
|
是 |
控制算法随机性的种子值。请注意,设置此参数时必须将 |
similarityCutoff |
浮点数 |
|
是 |
从 K-最近邻列表中过滤掉相似度低于此阈值的节点。 |
perturbationRate |
浮点数 |
|
是 |
用相等相似度的已遇到邻居替换已知最不相似邻居的概率。 |
| 名称 | 类型 | 描述 |
|---|---|---|
|
整数 |
第一个节点的节点 ID。 |
|
整数 |
第二个节点的节点 ID。 |
|
浮点数 |
两个节点的相似度分数。 |
CALL gds.knn.stats(
graphName: String,
configuration: Map
)
YIELD
preProcessingMillis: Integer,
computeMillis: Integer,
postProcessingMillis: Integer,
nodesCompared: Integer,
ranIterations: Integer,
didConverge: Boolean,
nodePairsConsidered: Integer,
similarityPairs: Integer,
similarityDistribution: Map,
configuration: Map
| 名称 | 类型 | 默认 | 可选 | 描述 |
|---|---|---|---|---|
graphName |
字符串 |
|
否 |
存储在目录中的图的名称。 |
配置 |
Map |
|
是 |
算法特定配置和/或图过滤配置。 |
| 名称 | 类型 | 默认 | 可选 | 描述 |
|---|---|---|---|---|
字符串列表 |
|
是 |
使用给定的节点标签过滤命名图。具有任何给定标签的节点都将被包含。 |
|
字符串列表 |
|
是 |
使用给定的关系类型过滤命名图。具有任何给定类型的关系都将被包含。 |
|
整数 |
|
是 |
用于运行算法的并发线程数。 |
|
字符串 |
|
是 |
可以提供一个 ID 以更轻松地跟踪算法的进度。 |
|
布尔值 |
|
是 |
如果禁用,进度百分比将不会被记录。 |
|
nodeProperties |
字符串或 Map 或字符串/Map 的列表 |
|
否 |
用于相似度计算的节点属性及其所选的相似度度量。接受单个属性键、属性键到度量的映射,或属性键和/或映射的列表(如上所述)。详见 节点属性和度量配置。 |
topK |
整数 |
|
是 |
为每个节点查找的邻居数量。将返回 K-最近邻居。此值不能低于 1。 |
sampleRate |
浮点数 |
|
是 |
限制每个节点比较次数的采样率。值必须介于 0(不含)和 1(含)之间。 |
deltaThreshold |
浮点数 |
|
是 |
以百分比表示的值,用于确定何时提前停止。如果发生的更新少于配置的值,算法将停止。值必须介于 0(不含)和 1(含)之间。 |
整数 |
|
是 |
硬限制,在进行这些迭代后停止算法。 |
|
randomJoins |
整数 |
|
是 |
对于每次迭代,每个节点根据随机选择连接新节点邻居的随机尝试次数。 |
字符串 |
|
是 |
用于为每个节点采样前 |
|
randomSeed |
整数 |
|
是 |
控制算法随机性的种子值。请注意,设置此参数时必须将 |
similarityCutoff |
浮点数 |
|
是 |
从 K-最近邻列表中过滤掉相似度低于此阈值的节点。 |
perturbationRate |
浮点数 |
|
是 |
用相等相似度的已遇到邻居替换已知最不相似邻居的概率。 |
| 名称 | 类型 | 描述 |
|---|---|---|
ranIterations |
整数 |
运行的迭代次数。 |
didConverge |
布尔值 |
指示算法是否收敛。 |
nodePairsConsidered |
整数 |
相似度计算的次数。 |
preProcessingMillis |
整数 |
预处理数据的毫秒数。 |
computeMillis |
整数 |
运行算法的毫秒数。 |
postProcessingMillis |
整数 |
计算相似度分布统计信息的毫秒数。 |
nodesCompared |
整数 |
计算过相似度的节点数量。 |
similarityPairs |
整数 |
结果中的相似度对数量。 |
similarityDistribution |
Map |
包含计算出的相似度结果的最小值、最大值、平均值以及 p50, p75, p90, p95, p99 和 p999 百分位值的映射。 |
配置 |
Map |
用于运行算法的配置。 |
CALL gds.knn.mutate(
graphName: String,
configuration: Map
)
YIELD
preProcessingMillis: Integer,
computeMillis: Integer,
mutateMillis: Integer,
postProcessingMillis: Integer,
relationshipsWritten: Integer,
nodesCompared: Integer,
ranIterations: Integer,
didConverge: Boolean,
nodePairsConsidered: Integer,
similarityDistribution: Map,
configuration: Map
| 名称 | 类型 | 默认 | 可选 | 描述 |
|---|---|---|---|---|
graphName |
字符串 |
|
否 |
存储在目录中的图的名称。 |
配置 |
Map |
|
是 |
算法特定配置和/或图过滤配置。 |
| 名称 | 类型 | 默认 | 可选 | 描述 |
|---|---|---|---|---|
mutateRelationshipType |
字符串 |
|
否 |
用于写入投影图的新关系的关系类型。 |
mutateProperty |
字符串 |
|
否 |
GDS 图中写入相似度分数的属性。 |
字符串列表 |
|
是 |
使用给定的节点标签过滤命名图。 |
|
字符串列表 |
|
是 |
使用给定的关系类型过滤命名图。 |
|
整数 |
|
是 |
用于运行算法的并发线程数。 |
|
布尔值 |
|
是 |
如果禁用,进度百分比将不会被记录。 |
|
字符串 |
|
是 |
可以提供一个 ID 以更轻松地跟踪算法的进度。 |
|
nodeProperties |
字符串或 Map 或字符串/Map 的列表 |
|
否 |
用于相似度计算的节点属性及其所选的相似度度量。接受单个属性键、属性键到度量的映射,或属性键和/或映射的列表(如上所述)。详见 节点属性和度量配置。 |
topK |
整数 |
|
是 |
为每个节点查找的邻居数量。将返回 K-最近邻居。此值不能低于 1。 |
sampleRate |
浮点数 |
|
是 |
限制每个节点比较次数的采样率。值必须介于 0(不含)和 1(含)之间。 |
deltaThreshold |
浮点数 |
|
是 |
以百分比表示的值,用于确定何时提前停止。如果发生的更新少于配置的值,算法将停止。值必须介于 0(不含)和 1(含)之间。 |
整数 |
|
是 |
硬限制,在进行这些迭代后停止算法。 |
|
randomJoins |
整数 |
|
是 |
对于每次迭代,每个节点根据随机选择连接新节点邻居的随机尝试次数。 |
字符串 |
|
是 |
用于为每个节点采样前 |
|
randomSeed |
整数 |
|
是 |
控制算法随机性的种子值。请注意,设置此参数时必须将 |
similarityCutoff |
浮点数 |
|
是 |
从 K-最近邻列表中过滤掉相似度低于此阈值的节点。 |
perturbationRate |
浮点数 |
|
是 |
用相等相似度的已遇到邻居替换已知最不相似邻居的概率。 |
| 名称 | 类型 | 描述 |
|---|---|---|
ranIterations |
整数 |
运行的迭代次数。 |
didConverge |
布尔值 |
指示算法是否收敛。 |
nodePairsConsidered |
整数 |
相似度计算的次数。 |
preProcessingMillis |
整数 |
预处理数据的毫秒数。 |
computeMillis |
整数 |
运行算法的毫秒数。 |
mutateMillis |
整数 |
向投影图添加属性的毫秒数。 |
postProcessingMillis |
整数 |
计算相似度分布统计信息的毫秒数。 |
nodesCompared |
整数 |
计算过相似度的节点数量。 |
relationshipsWritten |
整数 |
创建的关系数量。 |
similarityDistribution |
Map |
包含计算出的相似度结果的最小值、最大值、平均值、标准差以及 p1, p5, p10, p25, p75, p90, p95, p99, p100 百分位值的映射。 |
配置 |
Map |
用于运行算法的配置。 |
CALL gds.knn.write(
graphName: String,
configuration: Map
)
YIELD
preProcessingMillis: Integer,
computeMillis: Integer,
writeMillis: Integer,
postProcessingMillis: Integer,
nodesCompared: Integer,
ranIterations: Integer,
didConverge: Boolean,
nodePairsConsidered: Integer,
relationshipsWritten: Integer,
similarityDistribution: Map,
configuration: Map
| 名称 | 类型 | 默认 | 可选 | 描述 |
|---|---|---|---|---|
graphName |
字符串 |
|
否 |
存储在目录中的图的名称。 |
配置 |
Map |
|
是 |
算法特定配置和/或图过滤配置。 |
| 名称 | 类型 | 默认 | 可选 | 描述 |
|---|---|---|---|---|
字符串列表 |
|
是 |
使用给定的节点标签过滤命名图。具有任何给定标签的节点都将被包含。 |
|
字符串列表 |
|
是 |
使用给定的关系类型过滤命名图。具有任何给定类型的关系都将被包含。 |
|
整数 |
|
是 |
用于运行算法的并发线程数。 |
|
字符串 |
|
是 |
可以提供一个 ID 以更轻松地跟踪算法的进度。 |
|
布尔值 |
|
是 |
如果禁用,进度百分比将不会被记录。 |
|
整数 |
|
是 |
用于将结果写入 Neo4j 的并发线程数。 |
|
writeRelationshipType |
字符串 |
|
否 |
用于将计算出的关系持久化到 Neo4j 数据库的关系类型。 |
字符串 |
|
否 |
Neo4j 数据库中写入相似度分数的属性。 |
|
nodeProperties |
字符串或 Map 或字符串/Map 的列表 |
|
否 |
用于相似度计算的节点属性及其所选的相似度度量。接受单个属性键、属性键到度量的映射,或属性键和/或映射的列表(如上所述)。详见 节点属性和度量配置。 |
topK |
整数 |
|
是 |
为每个节点查找的邻居数量。将返回 K-最近邻居。此值不能低于 1。 |
sampleRate |
浮点数 |
|
是 |
限制每个节点比较次数的采样率。值必须介于 0(不含)和 1(含)之间。 |
deltaThreshold |
浮点数 |
|
是 |
以百分比表示的值,用于确定何时提前停止。如果发生的更新少于配置的值,算法将停止。值必须介于 0(不含)和 1(含)之间。 |
整数 |
|
是 |
硬限制,在进行这些迭代后停止算法。 |
|
randomJoins |
整数 |
|
是 |
对于每次迭代,每个节点根据随机选择连接新节点邻居的随机尝试次数。 |
字符串 |
|
是 |
用于为每个节点采样前 |
|
randomSeed |
整数 |
|
是 |
控制算法随机性的种子值。请注意,设置此参数时必须将 |
similarityCutoff |
浮点数 |
|
是 |
从 K-最近邻列表中过滤掉相似度低于此阈值的节点。 |
perturbationRate |
浮点数 |
|
是 |
用相等相似度的已遇到邻居替换已知最不相似邻居的概率。 |
| 名称 | 类型 | 描述 |
|---|---|---|
ranIterations |
整数 |
运行的迭代次数。 |
didConverge |
布尔值 |
指示算法是否收敛。 |
nodePairsConsidered |
整数 |
相似度计算的次数。 |
preProcessingMillis |
整数 |
预处理数据的毫秒数。 |
computeMillis |
整数 |
运行算法的毫秒数。 |
writeMillis |
整数 |
将结果数据写回 Neo4j 的毫秒数。 |
postProcessingMillis |
整数 |
计算相似度分布统计信息的毫秒数。 |
nodesCompared |
整数 |
计算过相似度的节点数量。 |
relationshipsWritten |
整数 |
创建的关系数量。 |
similarityDistribution |
Map |
包含计算出的相似度结果的最小值、最大值、平均值、标准差以及 p1, p5, p10, p25, p75, p90, p95, p99, p100 百分位值的映射。 |
配置 |
Map |
用于运行算法的配置。 |
|
KNN 算法不读取任何关系,但 |
结果与在命名图上运行写入模式相同,请参阅 上面的写入模式语法。
|
要在运行算法时获得确定性结果:
|
示例
|
以下所有示例应在空数据库中运行。 这些示例将 Cypher 投影作为规范。原生投影将在未来版本中弃用。 |
在本节中,我们将展示在具体图上运行 KNN 算法的示例。使用 Uniform 采样器,KNN 会均匀随机地采样初始邻居,而不考虑图的拓扑结构。这意味着 KNN 可以在仅包含节点的图上运行,而无需任何关系。考虑以下由五个断开连接的 Person 节点组成的图。
CREATE (alice:Person {name: 'Alice', age: 24, lotteryNumbers: [1, 3], embedding: [1.0, 3.0]})
CREATE (bob:Person {name: 'Bob', age: 73, lotteryNumbers: [1, 2, 3], embedding: [2.1, 1.6]})
CREATE (carol:Person {name: 'Carol', age: 24, lotteryNumbers: [3], embedding: [1.5, 3.1]})
CREATE (dave:Person {name: 'Dave', age: 48, lotteryNumbers: [2, 4], embedding: [0.6, 0.2]})
CREATE (eve:Person {name: 'Eve', age: 67, lotteryNumbers: [1, 5], embedding: [1.8, 2.7]});
在该示例中,我们想要使用 K-近邻算法根据年龄或所有提供属性的组合来比较人员。
MATCH (p:Person)
RETURN gds.graph.project(
'myGraph',
p,
null,
{
sourceNodeProperties: p { .age, .lotteryNumbers, .embedding },
targetNodeProperties: {}
}
)
内存估算
首先,我们将使用 estimate 过程估算运行算法的成本。这可以在任何执行模式下完成。在这个例子中我们将使用 write 模式。估算算法有助于了解在您的图上运行该算法将产生的内存影响。当您随后在其中一种执行模式下真正运行算法时,系统将执行一次估算。如果估算显示执行超出其内存限制的可能性非常高,则禁止执行。要阅读更多关于此的内容,请参阅 自动估算和执行阻塞。
有关 estimate 的更多详细信息,请参阅 内存估算。
CALL gds.knn.write.estimate('myGraph', {
nodeProperties: ['age'],
writeRelationshipType: 'SIMILAR',
writeProperty: 'score',
topK: 1
})
YIELD nodeCount, bytesMin, bytesMax, requiredMemory
| nodeCount | bytesMin | bytesMax | requiredMemory |
|---|---|---|---|
5 |
2224 |
3280 |
"[2224 字节 ... 3280 字节]" |
流式读取 (Stream)
在 stream 执行模式下,算法返回每个关系的相似度分数。这允许我们直接检查结果或在 Cypher 中进行后处理,而不会产生任何副作用。
有关 stream 模式的更多详细信息,请参阅 流式读取。
CALL gds.knn.stream('myGraph', {
topK: 1,
nodeProperties: ['age'],
// The following parameters are set to produce a deterministic result
randomSeed: 1337,
concurrency: 1,
sampleRate: 1.0,
deltaThreshold: 0.0
})
YIELD node1, node2, similarity
RETURN gds.util.asNode(node1).name AS Person1, gds.util.asNode(node2).name AS Person2, similarity
ORDER BY similarity DESCENDING, Person1, Person2
| Person1 | Person2 | similarity |
|---|---|---|
"Alice" |
"Carol" |
1.0 |
"Carol" |
"Alice" |
1.0 |
"Bob" |
"Eve" |
0.14285714285714285 |
"Eve" |
"Bob" |
0.14285714285714285 |
"Dave" |
"Eve" |
0.05 |
我们在大多数过程配置参数中使用默认值。设置 randomSeed 和 concurrency 是为了在每次调用时产生相同的结果。topK 参数设置为 1,以便仅为每个节点返回单个最近邻居。请注意,Dave 和 Eve 之间的相似度非常低。将 similarityCutoff 参数设置为 0.10 将过滤掉他们之间的关系,将其从结果中删除。
统计 (Stats)
在 stats 执行模式下,算法返回包含算法结果摘要的单行数据。此执行模式没有任何副作用。它对于通过检查 computeMillis 返回项来评估算法性能非常有用。在下面的示例中,我们将省略返回时间。过程的完整签名可以在 语法部分 中找到。
有关 stats 模式的更多详细信息,请参阅 统计。
CALL gds.knn.stats('myGraph', {topK: 1, concurrency: 1, randomSeed: 42, nodeProperties: ['age']})
YIELD nodesCompared, similarityPairs
| nodesCompared | similarityPairs |
|---|---|
5 |
5 |
变更 (Mutate)
mutate 执行模式扩展了 stats 模式并产生了一个重要的副作用:使用包含该关系相似度分数的新关系属性更新命名图。新属性的名称使用强制配置参数 mutateProperty 指定。结果是一个摘要行,类似于 stats,但包含一些额外的指标。mutate 模式在同时使用多个算法时特别有用。
有关 mutate 模式的更多详细信息,请参阅 变更。
CALL gds.knn.mutate('myGraph', {
mutateRelationshipType: 'SIMILAR',
mutateProperty: 'score',
topK: 1,
randomSeed: 42,
concurrency: 1,
nodeProperties: ['age']
})
YIELD nodesCompared, relationshipsWritten
| nodesCompared | relationshipsWritten |
|---|---|
5 |
5 |
从结果中可以看出,创建的关系数量等于流式示例中的行数。
|
由 mutation 产生的关系始终是有向的,即使输入图是无向的。例如,如果 |
写入 (Write)
write 执行模式扩展了 stats 模式并产生了一个重要的副作用:对于每一对节点,我们在 Neo4j 数据库中创建一个关系,并将相似度分数作为属性。新关系的类型使用强制配置参数 writeRelationshipType 指定。每个新关系都存储它所代表的两个节点之间的相似度分数。关系属性键使用强制配置参数 writeProperty 设置。结果是一个摘要行,类似于 stats,但包含一些额外的指标。
有关 write 模式的更多详细信息,请参阅 写入。
CALL gds.knn.write('myGraph', {
writeRelationshipType: 'SIMILAR',
writeProperty: 'score',
topK: 1,
randomSeed: 42,
concurrency: 1,
nodeProperties: ['age']
})
YIELD nodesCompared, relationshipsWritten
| nodesCompared | relationshipsWritten |
|---|---|
5 |
5 |
从结果中可以看出,创建的关系数量等于流式示例中的行数。
|
写入的关系始终是有向的,即使输入图是无向的。例如,如果 |
多属性计算
如果我们想基于多个度量计算相似度,我们可以分别为每个属性计算相似度并取其平均值。例如,除了年龄属性外,我们还可以对嵌入属性使用归一化欧几里得相似度度量,并对彩票数字属性使用重叠度量。
CALL gds.knn.stream('myGraph', {
topK: 1,
nodeProperties: [
{embedding: "EUCLIDEAN"},
'age',
{lotteryNumbers: "OVERLAP"}
],
// The following parameters are set to produce a deterministic result
randomSeed: 1337,
concurrency: 1,
sampleRate: 1.0,
deltaThreshold: 0.0
})
YIELD node1, node2, similarity
RETURN gds.util.asNode(node1).name AS Person1, gds.util.asNode(node2).name AS Person2, similarity
ORDER BY similarity DESCENDING, Person1, Person2
| Person1 | Person2 | similarity |
|---|---|---|
"Alice" |
"Carol" |
0.8874315534 |
"Carol" |
"Alice" |
0.8874315534 |
"Bob" |
"Carol" |
0.4674429487 |
"Eve" |
"Bob" |
0.3700361866 |
"Dave" |
"Bob" |
0.2887113179 |
请注意,查询中的两个不同 Map 可以合并为一个。