K-近邻 (K-Nearest Neighbors)

术语表

有向

有向特征。该算法在有向图上定义良好。

有向

有向特征。该算法忽略图的方向。

有向

有向特征。该算法不能在有向图上运行。

无向

无向特征。该算法在无向图上定义良好。

无向

无向特征。该算法忽略图的无向性。

异构节点

异构节点完全支持。该算法有能力区分不同类型的节点。

异构节点

异构节点允许。该算法平等对待所有选定的节点,无论其标签如何。

异构关系

异构关系完全支持。该算法有能力区分不同类型的关系。

异构关系

异构关系允许。该算法平等对待所有选定的关系,无论其类型如何。

加权关系

加权特征。该算法支持将关系属性用作权重,通过 relationshipWeightProperty 配置参数指定。

加权关系

加权特征。该算法将每个关系视为同等重要,忽略任何关系权重值。

节点属性

节点属性特征。该算法使用节点属性。

 

kNN 已收录在端到端示例 Jupyter Notebook 中

简介

K-近邻算法计算图中所有节点对的距离值,并在每个节点与其 k 个最近邻居之间创建新的关系。距离是基于节点属性计算的。

该算法的输入是同构图;图中的任何节点标签或关系类型信息都会被忽略。该图不需要是连通的,事实上,节点之间现有的关系将被忽略——除非使用了随机游走采样选项。新的关系是在每个节点与其 k 个最近邻居之间创建的。

K-近邻算法比较每个节点的给定属性。这些属性最相似的 k 个节点即为该节点的 k 个最近邻居。

初始邻居集是随机选择的,并在多次迭代中进行验证和细化。迭代次数受配置参数 maxIterations 限制。如果邻居列表的变化量很小,算法可能会提前停止,这可以通过配置参数 deltaThreshold 来控制。

该实现基于 Wei Dong 等人的 通用相似度度量的有效 K-近邻图构建。算法不是将每个节点与所有其他节点进行比较,而是基于“节点的邻居的邻居很可能已经是其最近邻居”这一假设来选择可能的邻居。该算法的时间复杂度相对于节点数是拟线性的,而不是二次方的。

此外,该算法在每次迭代中只比较所有可能邻居的一个样本,假设最终会看到所有可能的邻居。这可以通过配置参数 sampleRate 来控制。

  • 有效的采样率必须介于 0(不含)和 1(含)之间。

  • 默认值为 0.5

  • 此参数用于控制准确性和运行时性能之间的权衡。

  • 较高的采样率会提高结果的准确性。

    • 算法也将需要更多内存并需要更长的计算时间。

  • 较低的采样率会提高运行时性能。

    • 比较中可能会错过一些潜在节点,因此它们可能不会包含在结果中。

当遇到的邻居与已知最不相似的邻居具有相同的相似度时,随机选择保留哪个节点可以降低某些邻域未被探索的风险。此行为由配置参数 perturbationRate 控制。

算法的输出是节点与其 k 个最近邻居之间的新关系。相似度分数通过关系属性表示。

有关此算法的更多信息,请参阅

也可以对生成的相似度对中的源节点和/或目标节点应用过滤。您可以为此考虑 过滤后的 K-近邻 算法。

运行此算法需要足够的可用内存。在运行此算法之前,我们建议您阅读 内存估算

相似度度量

KNN 算法中使用的相似度度量取决于所配置的节点属性类型。KNN 支持标量数值和数字列表。

标量数字

当属性为标量数字时,相似度的计算方式如下

knn scalar similarity
图 1. 1 除以 (1 + 绝对差值)

这给出的数字范围在 (0, 1]

整数列表

当属性为整数列表时,可以使用 Jaccard 相似度或重叠系数来衡量相似度。

Jaccard 相似度
jacard
图 2. 交集大小除以并集大小
重叠系数
overlap
图 3. 交集大小除以最小集合的大小

这两种度量给出的分数范围都在 [0, 1],不需要进行归一化。当未指定度量标准时,Jaccard 相似度是比较整数列表的默认选项。

浮点数列表

当属性为浮点数列表时,计算两个节点之间的相似度有三种替代方案。

默认使用的度量是余弦相似度。

余弦相似度
cosine
图 4. 向量的点积除以它们长度的乘积

请注意,上述公式给出的分数范围在 [-1, 1]。通过执行 score = (score + 1) / 2,将分数归一化到 [0, 1] 的范围。

另外两种度量包括 Pearson 相关系数和归一化欧几里得相似度。

Pearson 相关系数
pearson
图 5. 协方差除以标准差的乘积

如上所述,该公式给出的分数范围在 [-1, 1],同样被归一化到 [0, 1] 的范围。

欧几里得相似度
ed
图 6. 每对元素之差的平方和的平方根

该公式的结果是一个非负值,但不一定被限制在 [0, 1] 范围内。为了将数字限制在此范围内并获得相似度分数,我们返回 score = 1 / (1 + distance),即我们执行与标量值情况相同的归一化。

多个属性

最后,当指定了多个属性时,两个邻居的相似度是各单独属性相似度的平均值,即这些数字的简单平均值,每个数字都在 [0, 1] 范围内,从而得到一个同样在 [0, 1] 范围内的总分数。

这种平均值的有效性高度依赖于上下文,因此在将其应用于您的数据领域时要小心。

节点属性和度量配置

要使用的节点属性和度量通过 nodeProperties 配置参数指定。必须至少指定一个节点属性。

此参数接受以下之一

表 1. nodeProperties 语法

单个属性名称

nodeProperties: 'embedding'

属性键到度量的映射 (Map)

nodeProperties: {
    embedding: 'COSINE',
    age: 'DEFAULT',
    lotteryNumbers: 'OVERLAP'
}

字符串和/或映射的列表

nodeProperties: [
    {embedding: 'COSINE'},
    'age',
    {lotteryNumbers: 'OVERLAP'}
]

按类型划分的可用度量如下

表 2. 按类型划分的可用度量
type 度量

整数列表

JACCARD, OVERLAP

浮点数列表

COSINE, EUCLIDEAN, PEARSON

对于任何属性类型,也可以指定 DEFAULT 以使用默认度量。对于标量数字,只有默认度量。

初始邻居采样

算法开始时为每个节点挑选 k 个随机邻居。这种随机采样有两种方式。

均匀 (Uniform)

每个节点的首批 k 个邻居是从图中所有其他节点中均匀随机选择的。这是初始采样的经典方法。这也是算法的默认值。请注意,此方法实际上并未使用输入图的拓扑结构。

随机游走 (Random Walk)

我们从每个节点进行深度偏置的随机游走,并选择我们在该游走中访问的前 k 个唯一节点作为我们的初始随机邻居。如果在某个内部定义的 O(k) 步长的随机游走后,尚未访问到 k 个唯一邻居,我们将使用上述均匀方法填补剩余的邻居。随机游走方法利用了输入图的拓扑结构,如果拓扑上相近的节点之间更容易找到好的相似度分数,则该方法可能更合适。

所使用的随机游走在深度方面有偏置,即它更倾向于选择远离之前访问过的节点,而不是回到它或回到距离它相等的节点。这种偏置的直觉是,随后的比较邻居的邻居的迭代很可能覆盖每个节点的扩展(拓扑)邻域。

语法

本节涵盖在每种执行模式下执行 K-近邻算法所使用的语法。我们描述的是命名图变体语法。要了解更多关于通用语法变体的信息,请参阅 语法概述

每种模式下的 K-近邻语法
在命名图上以流模式 (stream mode) 运行 K-近邻。
CALL gds.knn.stream(
  graphName: String,
  configuration: Map
) YIELD
  node1: Integer,
  node2: Integer,
  similarity: Float
表 3. 参数
名称 类型 默认 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

配置

Map

{}

算法特定配置和/或图过滤配置。

表 4. 配置
名称 类型 默认 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。具有任何给定标签的节点都将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。具有任何给定类型的关系都将被包含。

concurrency

整数

4 [1]

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供一个 ID 以更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,进度百分比将不会被记录。

nodeProperties

字符串或 Map 或字符串/Map 的列表

不适用

用于相似度计算的节点属性及其所选的相似度度量。接受单个属性键、属性键到度量的映射,或属性键和/或映射的列表(如上所述)。详见 节点属性和度量配置

topK

整数

10

为每个节点查找的邻居数量。将返回 K-最近邻居。此值不能低于 1。

sampleRate

浮点数

0.5

限制每个节点比较次数的采样率。值必须介于 0(不含)和 1(含)之间。

deltaThreshold

浮点数

0.001

以百分比表示的值,用于确定何时提前停止。如果发生的更新少于配置的值,算法将停止。值必须介于 0(不含)和 1(含)之间。

maxIterations

整数

100

硬限制,在进行这些迭代后停止算法。

randomJoins

整数

10

对于每次迭代,每个节点根据随机选择连接新节点邻居的随机尝试次数。

initialSampler

字符串

"uniform"

用于为每个节点采样前 k 个随机邻居的方法。“uniform”和“randomWalk”(均不区分大小写)是有效的输入。

randomSeed

整数

不适用

控制算法随机性的种子值。请注意,设置此参数时必须将 concurrency 设置为 1。

similarityCutoff

浮点数

0

从 K-最近邻列表中过滤掉相似度低于此阈值的节点。

perturbationRate

浮点数

0

用相等相似度的已遇到邻居替换已知最不相似邻居的概率。

1. 在 GDS 会话中,默认值为可用处理器的数量。

表 5. 结果
名称 类型 描述

node1

整数

第一个节点的节点 ID。

node2

整数

第二个节点的节点 ID。

similarity

浮点数

两个节点的相似度分数。

在命名图上以统计模式 (stats mode) 运行 K-近邻。
CALL gds.knn.stats(
  graphName: String,
  configuration: Map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  nodesCompared: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  nodePairsConsidered: Integer,
  similarityPairs: Integer,
  similarityDistribution: Map,
  configuration: Map
表 6. 参数
名称 类型 默认 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

配置

Map

{}

算法特定配置和/或图过滤配置。

表 7. 配置
名称 类型 默认 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。具有任何给定标签的节点都将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。具有任何给定类型的关系都将被包含。

concurrency

整数

4 [2]

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供一个 ID 以更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,进度百分比将不会被记录。

nodeProperties

字符串或 Map 或字符串/Map 的列表

不适用

用于相似度计算的节点属性及其所选的相似度度量。接受单个属性键、属性键到度量的映射,或属性键和/或映射的列表(如上所述)。详见 节点属性和度量配置

topK

整数

10

为每个节点查找的邻居数量。将返回 K-最近邻居。此值不能低于 1。

sampleRate

浮点数

0.5

限制每个节点比较次数的采样率。值必须介于 0(不含)和 1(含)之间。

deltaThreshold

浮点数

0.001

以百分比表示的值,用于确定何时提前停止。如果发生的更新少于配置的值,算法将停止。值必须介于 0(不含)和 1(含)之间。

maxIterations

整数

100

硬限制,在进行这些迭代后停止算法。

randomJoins

整数

10

对于每次迭代,每个节点根据随机选择连接新节点邻居的随机尝试次数。

initialSampler

字符串

"uniform"

用于为每个节点采样前 k 个随机邻居的方法。“uniform”和“randomWalk”(均不区分大小写)是有效的输入。

randomSeed

整数

不适用

控制算法随机性的种子值。请注意,设置此参数时必须将 concurrency 设置为 1。

similarityCutoff

浮点数

0

从 K-最近邻列表中过滤掉相似度低于此阈值的节点。

perturbationRate

浮点数

0

用相等相似度的已遇到邻居替换已知最不相似邻居的概率。

2. 在 GDS 会话中,默认值为可用处理器的数量。

表 8. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

nodePairsConsidered

整数

相似度计算的次数。

preProcessingMillis

整数

预处理数据的毫秒数。

computeMillis

整数

运行算法的毫秒数。

postProcessingMillis

整数

计算相似度分布统计信息的毫秒数。

nodesCompared

整数

计算过相似度的节点数量。

similarityPairs

整数

结果中的相似度对数量。

similarityDistribution

Map

包含计算出的相似度结果的最小值、最大值、平均值以及 p50, p75, p90, p95, p99 和 p999 百分位值的映射。

配置

Map

用于运行算法的配置。

在目录中的图上以变更模式 (mutate mode) 运行 K-近邻。
CALL gds.knn.mutate(
  graphName: String,
  configuration: Map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  mutateMillis: Integer,
  postProcessingMillis: Integer,
  relationshipsWritten: Integer,
  nodesCompared: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  nodePairsConsidered: Integer,
  similarityDistribution: Map,
  configuration: Map
表 9. 参数
名称 类型 默认 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

配置

Map

{}

算法特定配置和/或图过滤配置。

表 10. 配置
名称 类型 默认 可选 描述

mutateRelationshipType

字符串

不适用

用于写入投影图的新关系的关系类型。

mutateProperty

字符串

不适用

GDS 图中写入相似度分数的属性。

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。

concurrency

整数

4

用于运行算法的并发线程数。

logProgress

布尔值

true

如果禁用,进度百分比将不会被记录。

jobId

字符串

内部生成

可以提供一个 ID 以更轻松地跟踪算法的进度。

nodeProperties

字符串或 Map 或字符串/Map 的列表

不适用

用于相似度计算的节点属性及其所选的相似度度量。接受单个属性键、属性键到度量的映射,或属性键和/或映射的列表(如上所述)。详见 节点属性和度量配置

topK

整数

10

为每个节点查找的邻居数量。将返回 K-最近邻居。此值不能低于 1。

sampleRate

浮点数

0.5

限制每个节点比较次数的采样率。值必须介于 0(不含)和 1(含)之间。

deltaThreshold

浮点数

0.001

以百分比表示的值,用于确定何时提前停止。如果发生的更新少于配置的值,算法将停止。值必须介于 0(不含)和 1(含)之间。

maxIterations

整数

100

硬限制,在进行这些迭代后停止算法。

randomJoins

整数

10

对于每次迭代,每个节点根据随机选择连接新节点邻居的随机尝试次数。

initialSampler

字符串

"uniform"

用于为每个节点采样前 k 个随机邻居的方法。“uniform”和“randomWalk”(均不区分大小写)是有效的输入。

randomSeed

整数

不适用

控制算法随机性的种子值。请注意,设置此参数时必须将 concurrency 设置为 1。

similarityCutoff

浮点数

0

从 K-最近邻列表中过滤掉相似度低于此阈值的节点。

perturbationRate

浮点数

0

用相等相似度的已遇到邻居替换已知最不相似邻居的概率。

表 11. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

nodePairsConsidered

整数

相似度计算的次数。

preProcessingMillis

整数

预处理数据的毫秒数。

computeMillis

整数

运行算法的毫秒数。

mutateMillis

整数

向投影图添加属性的毫秒数。

postProcessingMillis

整数

计算相似度分布统计信息的毫秒数。

nodesCompared

整数

计算过相似度的节点数量。

relationshipsWritten

整数

创建的关系数量。

similarityDistribution

Map

包含计算出的相似度结果的最小值、最大值、平均值、标准差以及 p1, p5, p10, p25, p75, p90, p95, p99, p100 百分位值的映射。

配置

Map

用于运行算法的配置。

在目录中的图上以写入模式 (write mode) 运行 K-近邻。
CALL gds.knn.write(
  graphName: String,
  configuration: Map
)
YIELD
  preProcessingMillis: Integer,
  computeMillis: Integer,
  writeMillis: Integer,
  postProcessingMillis: Integer,
  nodesCompared: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  nodePairsConsidered: Integer,
  relationshipsWritten: Integer,
  similarityDistribution: Map,
  configuration: Map
表 12. 参数
名称 类型 默认 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

配置

Map

{}

算法特定配置和/或图过滤配置。

表 13. 配置
名称 类型 默认 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。具有任何给定标签的节点都将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。具有任何给定类型的关系都将被包含。

concurrency

整数

4 [3]

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供一个 ID 以更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,进度百分比将不会被记录。

writeConcurrency

整数

'concurrency' 的值

用于将结果写入 Neo4j 的并发线程数。

writeRelationshipType

字符串

不适用

用于将计算出的关系持久化到 Neo4j 数据库的关系类型。

writeProperty

字符串

不适用

Neo4j 数据库中写入相似度分数的属性。

nodeProperties

字符串或 Map 或字符串/Map 的列表

不适用

用于相似度计算的节点属性及其所选的相似度度量。接受单个属性键、属性键到度量的映射,或属性键和/或映射的列表(如上所述)。详见 节点属性和度量配置

topK

整数

10

为每个节点查找的邻居数量。将返回 K-最近邻居。此值不能低于 1。

sampleRate

浮点数

0.5

限制每个节点比较次数的采样率。值必须介于 0(不含)和 1(含)之间。

deltaThreshold

浮点数

0.001

以百分比表示的值,用于确定何时提前停止。如果发生的更新少于配置的值,算法将停止。值必须介于 0(不含)和 1(含)之间。

maxIterations

整数

100

硬限制,在进行这些迭代后停止算法。

randomJoins

整数

10

对于每次迭代,每个节点根据随机选择连接新节点邻居的随机尝试次数。

initialSampler

字符串

"uniform"

用于为每个节点采样前 k 个随机邻居的方法。“uniform”和“randomWalk”(均不区分大小写)是有效的输入。

randomSeed

整数

不适用

控制算法随机性的种子值。请注意,设置此参数时必须将 concurrency 设置为 1。

similarityCutoff

浮点数

0

从 K-最近邻列表中过滤掉相似度低于此阈值的节点。

perturbationRate

浮点数

0

用相等相似度的已遇到邻居替换已知最不相似邻居的概率。

3. 在 GDS 会话中,默认值为可用处理器的数量。

表 14. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

nodePairsConsidered

整数

相似度计算的次数。

preProcessingMillis

整数

预处理数据的毫秒数。

computeMillis

整数

运行算法的毫秒数。

writeMillis

整数

将结果数据写回 Neo4j 的毫秒数。

postProcessingMillis

整数

计算相似度分布统计信息的毫秒数。

nodesCompared

整数

计算过相似度的节点数量。

relationshipsWritten

整数

创建的关系数量。

similarityDistribution

Map

包含计算出的相似度结果的最小值、最大值、平均值、标准差以及 p1, p5, p10, p25, p75, p90, p95, p99, p100 百分位值的映射。

配置

Map

用于运行算法的配置。

KNN 算法不读取任何关系,但 relationshipProjectionrelationshipQuery 的值仍会被用于图加载。

结果与在命名图上运行写入模式相同,请参阅 上面的写入模式语法

要在运行算法时获得确定性结果:

  • 必须将 concurrency 参数设置为 1

  • 必须显式设置 randomSeed

示例

以下所有示例应在空数据库中运行。

这些示例将 Cypher 投影作为规范。原生投影将在未来版本中弃用。

在本节中,我们将展示在具体图上运行 KNN 算法的示例。使用 Uniform 采样器,KNN 会均匀随机地采样初始邻居,而不考虑图的拓扑结构。这意味着 KNN 可以在仅包含节点的图上运行,而无需任何关系。考虑以下由五个断开连接的 Person 节点组成的图。

Visualization of the example graph
CREATE (alice:Person {name: 'Alice', age: 24, lotteryNumbers: [1, 3], embedding: [1.0, 3.0]})
CREATE (bob:Person {name: 'Bob', age: 73, lotteryNumbers: [1, 2, 3], embedding: [2.1, 1.6]})
CREATE (carol:Person {name: 'Carol', age: 24, lotteryNumbers: [3], embedding: [1.5, 3.1]})
CREATE (dave:Person {name: 'Dave', age: 48, lotteryNumbers: [2, 4], embedding: [0.6, 0.2]})
CREATE (eve:Person {name: 'Eve', age: 67, lotteryNumbers: [1, 5], embedding: [1.8, 2.7]});

在该示例中,我们想要使用 K-近邻算法根据年龄或所有提供属性的组合来比较人员。

以下语句将投影图并将其存储在图目录中。
MATCH (p:Person)
RETURN gds.graph.project(
  'myGraph',
  p,
  null,
  {
    sourceNodeProperties: p { .age, .lotteryNumbers, .embedding },
    targetNodeProperties: {}
  }
)

内存估算

首先,我们将使用 estimate 过程估算运行算法的成本。这可以在任何执行模式下完成。在这个例子中我们将使用 write 模式。估算算法有助于了解在您的图上运行该算法将产生的内存影响。当您随后在其中一种执行模式下真正运行算法时,系统将执行一次估算。如果估算显示执行超出其内存限制的可能性非常高,则禁止执行。要阅读更多关于此的内容,请参阅 自动估算和执行阻塞

有关 estimate 的更多详细信息,请参阅 内存估算

以下内容将估算运行算法所需的内存
CALL gds.knn.write.estimate('myGraph', {
  nodeProperties: ['age'],
  writeRelationshipType: 'SIMILAR',
  writeProperty: 'score',
  topK: 1
})
YIELD nodeCount, bytesMin, bytesMax, requiredMemory
表 15. 结果
nodeCount bytesMin bytesMax requiredMemory

5

2224

3280

"[2224 字节 ... 3280 字节]"

流式读取 (Stream)

stream 执行模式下,算法返回每个关系的相似度分数。这允许我们直接检查结果或在 Cypher 中进行后处理,而不会产生任何副作用。

有关 stream 模式的更多详细信息,请参阅 流式读取

以下内容将运行算法并流式传输结果
CALL gds.knn.stream('myGraph', {
    topK: 1,
    nodeProperties: ['age'],
    // The following parameters are set to produce a deterministic result
    randomSeed: 1337,
    concurrency: 1,
    sampleRate: 1.0,
    deltaThreshold: 0.0
})
YIELD node1, node2, similarity
RETURN gds.util.asNode(node1).name AS Person1, gds.util.asNode(node2).name AS Person2, similarity
ORDER BY similarity DESCENDING, Person1, Person2
表 16. 结果
Person1 Person2 similarity

"Alice"

"Carol"

1.0

"Carol"

"Alice"

1.0

"Bob"

"Eve"

0.14285714285714285

"Eve"

"Bob"

0.14285714285714285

"Dave"

"Eve"

0.05

我们在大多数过程配置参数中使用默认值。设置 randomSeedconcurrency 是为了在每次调用时产生相同的结果。topK 参数设置为 1,以便仅为每个节点返回单个最近邻居。请注意,Dave 和 Eve 之间的相似度非常低。将 similarityCutoff 参数设置为 0.10 将过滤掉他们之间的关系,将其从结果中删除。

统计 (Stats)

stats 执行模式下,算法返回包含算法结果摘要的单行数据。此执行模式没有任何副作用。它对于通过检查 computeMillis 返回项来评估算法性能非常有用。在下面的示例中,我们将省略返回时间。过程的完整签名可以在 语法部分 中找到。

有关 stats 模式的更多详细信息,请参阅 统计

以下内容将运行算法并以统计和测量值的形式返回结果
CALL gds.knn.stats('myGraph', {topK: 1, concurrency: 1, randomSeed: 42, nodeProperties: ['age']})
YIELD nodesCompared, similarityPairs
表 17. 结果
nodesCompared similarityPairs

5

5

变更 (Mutate)

mutate 执行模式扩展了 stats 模式并产生了一个重要的副作用:使用包含该关系相似度分数的新关系属性更新命名图。新属性的名称使用强制配置参数 mutateProperty 指定。结果是一个摘要行,类似于 stats,但包含一些额外的指标。mutate 模式在同时使用多个算法时特别有用。

有关 mutate 模式的更多详细信息,请参阅 变更

以下内容将运行算法,并将结果写回内存中图
CALL gds.knn.mutate('myGraph', {
    mutateRelationshipType: 'SIMILAR',
    mutateProperty: 'score',
    topK: 1,
    randomSeed: 42,
    concurrency: 1,
    nodeProperties: ['age']
})
YIELD nodesCompared, relationshipsWritten
表 18. 结果
nodesCompared relationshipsWritten

5

5

从结果中可以看出,创建的关系数量等于流式示例中的行数。

由 mutation 产生的关系始终是有向的,即使输入图是无向的。例如,如果 a → ba 的 topK,并且对称地 b → ab 的 topK,看起来好像产生了无向关系。然而,它们只是两个独立产生的有向关系。

写入 (Write)

write 执行模式扩展了 stats 模式并产生了一个重要的副作用:对于每一对节点,我们在 Neo4j 数据库中创建一个关系,并将相似度分数作为属性。新关系的类型使用强制配置参数 writeRelationshipType 指定。每个新关系都存储它所代表的两个节点之间的相似度分数。关系属性键使用强制配置参数 writeProperty 设置。结果是一个摘要行,类似于 stats,但包含一些额外的指标。

有关 write 模式的更多详细信息,请参阅 写入

以下内容将运行算法并写回结果
CALL gds.knn.write('myGraph', {
    writeRelationshipType: 'SIMILAR',
    writeProperty: 'score',
    topK: 1,
    randomSeed: 42,
    concurrency: 1,
    nodeProperties: ['age']
})
YIELD nodesCompared, relationshipsWritten
表 19. 结果
nodesCompared relationshipsWritten

5

5

从结果中可以看出,创建的关系数量等于流式示例中的行数。

写入的关系始终是有向的,即使输入图是无向的。例如,如果 a → ba 的 topK,并且对称地 b → ab 的 topK,看起来好像写入了无向关系。然而,它们只是两个独立写入的有向关系。

多属性计算

如果我们想基于多个度量计算相似度,我们可以分别为每个属性计算相似度并取其平均值。例如,除了年龄属性外,我们还可以对嵌入属性使用归一化欧几里得相似度度量,并对彩票数字属性使用重叠度量。

以下展示了使用多个属性计算相似度并流式传输结果的示例
CALL gds.knn.stream('myGraph', {
    topK: 1,
    nodeProperties: [
        {embedding: "EUCLIDEAN"},
        'age',
        {lotteryNumbers: "OVERLAP"}
    ],
    // The following parameters are set to produce a deterministic result
    randomSeed: 1337,
    concurrency: 1,
    sampleRate: 1.0,
    deltaThreshold: 0.0
})
YIELD node1, node2, similarity
RETURN gds.util.asNode(node1).name AS Person1, gds.util.asNode(node2).name AS Person2, similarity
ORDER BY similarity DESCENDING, Person1, Person2
表 20. 结果
Person1 Person2 similarity

"Alice"

"Carol"

0.8874315534

"Carol"

"Alice"

0.8874315534

"Bob"

"Carol"

0.4674429487

"Eve"

"Bob"

0.3700361866

"Dave"

"Bob"

0.2887113179

请注意,查询中的两个不同 Map 可以合并为一个。