Article Rank

术语表

有向

有向特征。该算法在有向图上定义良好。

有向

有向特征。该算法忽略图的方向。

有向

有向特征。该算法不能在有向图上运行。

无向

无向特征。该算法在无向图上定义良好。

无向

无向特征。该算法忽略图的无向性。

异构节点

异构节点完全支持。该算法有能力区分不同类型的节点。

异构节点

异构节点允许。该算法平等对待所有选定的节点,无论其标签如何。

异构关系

异构关系完全支持。该算法有能力区分不同类型的关系。

异构关系

异构关系允许。该算法平等对待所有选定的关系,无论其类型如何。

加权关系

加权特征。该算法支持将关系属性用作权重,通过 relationshipWeightProperty 配置参数指定。

加权关系

加权特征。该算法将每个关系视为同等重要,忽略任何关系权重值。

节点属性

节点属性特征。该算法使用节点属性。

介绍

ArticleRank 是 Page Rank 算法的一种变体,用于衡量节点的传递性影响力。

Page Rank 遵循的假设是:源自低度节点的连接比源自高度节点的连接具有更高的影响力。Article Rank 通过在每次迭代中降低发送给邻居的分数,从而降低了低度节点的影响力。

节点 v 在第 i 次迭代时的 Article Rank 定义为

articleRank

其中,

  • Nin(v) 表示节点 v 的入度邻居,Nout(v) 表示节点 v 的出度邻居。

  • d[0, 1] 范围内的阻尼系数。

  • Nout 是平均出度。

注意事项

在使用 Article Rank 算法时,有一些事项需要注意。

  • 如果一组页面内部没有指向该组外部的关系,则该组被视为“蜘蛛陷阱”(spider trap)。

  • 当页面网络形成无限循环时,可能会出现排名汇聚 (rank sink)。

  • 当页面没有任何出口关系时,会出现死胡同 (dead-ends)。

改变阻尼系数可以帮助解决上述所有问题。它可被解释为网络冲浪者有时会跳到一个随机页面的概率,从而避免陷入汇聚点。

语法

本节涵盖了在每种执行模式下执行 Article Rank 算法所使用的语法。我们描述的是命名图变体的语法。要了解更多关于通用语法变体的信息,请参阅 语法概述

各模式下的 Article Rank 语法
在命名图上以流(stream)模式运行 Article Rank。
CALL gds.articleRank.stream(
  graphName: String,
  configuration: Map
)
YIELD
  nodeId: Integer,
  score: Float
表 1. 参数
名称 类型 默认 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

配置

Map

{}

算法特定配置和/或图过滤配置。

表 2. 配置
名称 类型 默认 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。具有任何给定标签的节点都将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。具有任何给定类型的关系都将被包含。

concurrency

整数

4 [1]

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供一个 ID 以更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,进度百分比将不会被记录。

dampingFactor(阻尼系数)

浮点数

0.85

PageRank 计算的阻尼系数。必须在 [0, 1) 范围内。

maxIterations

整数

20

运行 Article Rank 的最大迭代次数。

tolerance

浮点数

0.0000001

迭代之间分数的最小变化量。如果所有分数的变化都小于此容差值,则认为结果已稳定,算法将返回。

relationshipWeightProperty

字符串

null

用作权重的关系属性名称。如果未指定,算法将作为无权重运行。

sourceNodes

节点/数字或列表,或作为列表的对列表

[]

用于计算个性化 Article Rank 的节点、节点 ID 或节点-偏置对。若要对不同的源节点使用不同的偏置,请使用以下语法:[[nodeId1, bias1], [nodeId2, bias2], …​]

scaler

字符串或映射

None

应用于最终得分的缩放器名称。支持的值包括 NoneMinMaxMaxMeanLogStdScore。如需应用特定的缩放器配置,请使用映射语法:{scaler: 'name', …​}

1. 在 GDS 会话中,默认值为可用处理器的数量。

表 3. 结果
名称 类型 描述

nodeId

整数

节点 ID。

score

浮点数

特征向量(Eigenvector)分数。

在命名图上以统计(stats)模式运行 Article Rank。
CALL gds.articleRank.stats(
  graphName: String,
  configuration: Map
)
YIELD
  ranIterations: Integer,
  didConverge: Boolean,
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  centralityDistribution: Map,
  configuration: Map
表 4. 参数
名称 类型 默认 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

配置

Map

{}

算法特定配置和/或图过滤配置。

表 5. 配置
名称 类型 默认 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。具有任何给定标签的节点都将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。具有任何给定类型的关系都将被包含。

concurrency

整数

4 [2]

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供一个 ID 以更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,进度百分比将不会被记录。

dampingFactor(阻尼系数)

浮点数

0.85

PageRank 计算的阻尼系数。必须在 [0, 1) 范围内。

maxIterations

整数

20

运行 Article Rank 的最大迭代次数。

tolerance

浮点数

0.0000001

迭代之间分数的最小变化量。如果所有分数的变化都小于此容差值,则认为结果已稳定,算法将返回。

relationshipWeightProperty

字符串

null

用作权重的关系属性名称。如果未指定,算法将作为无权重运行。

sourceNodes

节点/数字或列表,或作为列表的对列表

[]

用于计算个性化 Article Rank 的节点、节点 ID 或节点-偏置对。若要对不同的源节点使用不同的偏置,请使用以下语法:[[nodeId1, bias1], [nodeId2, bias2], …​]

scaler

字符串或映射

None

应用于最终得分的缩放器名称。支持的值包括 NoneMinMaxMaxMeanLogStdScore。如需应用特定的缩放器配置,请使用映射语法:{scaler: 'name', …​}

2. 在 GDS 会话中,默认值为可用处理器的数量。

表 6. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

preProcessingMillis

整数

预处理图的毫秒数。

computeMillis

整数

运行算法的毫秒数。

postProcessingMillis

整数

计算 centralityDistribution 所需的毫秒数。

centralityDistribution

Map

包含中心性分数的最小值、最大值、平均值以及 p50、p75、p90、p95、p99 和 p999 百分位值的映射。

配置

Map

用于运行算法的配置。

在命名图上以变更(mutate)模式运行 Article Rank。
CALL gds.articleRank.mutate(
  graphName: String,
  configuration: Map
)
YIELD
  nodePropertiesWritten: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  mutateMillis: Integer,
  centralityDistribution: Map,
  configuration: Map
表 7. 参数
名称 类型 默认 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

配置

Map

{}

算法特定配置和/或图过滤配置。

表 8. 配置
名称 类型 默认 可选 描述

mutateProperty

字符串

不适用

GDS 图中写入得分的节点属性。

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。

concurrency

整数

4

用于运行算法的并发线程数。

logProgress

布尔值

true

如果禁用,进度百分比将不会被记录。

jobId

字符串

内部生成

可以提供一个 ID 以更轻松地跟踪算法的进度。

dampingFactor(阻尼系数)

浮点数

0.85

PageRank 计算的阻尼系数。必须在 [0, 1) 范围内。

maxIterations

整数

20

运行 Article Rank 的最大迭代次数。

tolerance

浮点数

0.0000001

迭代之间分数的最小变化量。如果所有分数的变化都小于此容差值,则认为结果已稳定,算法将返回。

relationshipWeightProperty

字符串

null

用作权重的关系属性名称。如果未指定,算法将作为无权重运行。

sourceNodes

节点/数字或列表,或作为列表的对列表

[]

用于计算个性化 Article Rank 的节点、节点 ID 或节点-偏置对。若要对不同的源节点使用不同的偏置,请使用以下语法:[[nodeId1, bias1], [nodeId2, bias2], …​]

scaler

字符串或映射

None

应用于最终得分的缩放器名称。支持的值包括 NoneMinMaxMaxMeanLogStdScore。如需应用特定的缩放器配置,请使用映射语法:{scaler: 'name', …​}

表 9. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

preProcessingMillis

整数

预处理图的毫秒数。

computeMillis

整数

运行算法的毫秒数。

postProcessingMillis

整数

计算 centralityDistribution 所需的毫秒数。

mutateMillis

整数

向投影图添加属性的毫秒数。

nodePropertiesWritten

整数

写入投影图的属性数量。

centralityDistribution

Map

包含中心性分数的最小值、最大值、平均值以及 p50、p75、p90、p95、p99 和 p999 百分位值的映射。

配置

Map

用于运行算法的配置。

在命名图上以写入(write)模式运行 Article Rank。
CALL gds.articleRank.write(
  graphName: String,
  configuration: Map
)
YIELD
  nodePropertiesWritten: Integer,
  ranIterations: Integer,
  didConverge: Boolean,
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  writeMillis: Integer,
  centralityDistribution: Map,
  configuration: Map
表 10. 参数
名称 类型 默认 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

配置

Map

{}

算法特定配置和/或图过滤配置。

表 11. 配置
名称 类型 默认 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。具有任何给定标签的节点都将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。具有任何给定类型的关系都将被包含。

concurrency

整数

4 [3]

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供一个 ID 以更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,进度百分比将不会被记录。

writeConcurrency

整数

'concurrency' 的值

用于将结果写入 Neo4j 的并发线程数。

writeProperty

字符串

不适用

Neo4j 数据库中写入得分的节点属性。

dampingFactor(阻尼系数)

浮点数

0.85

PageRank 计算的阻尼系数。必须在 [0, 1) 范围内。

maxIterations

整数

20

运行 Article Rank 的最大迭代次数。

tolerance

浮点数

0.0000001

迭代之间分数的最小变化量。如果所有分数的变化都小于此容差值,则认为结果已稳定,算法将返回。

relationshipWeightProperty

字符串

null

用作权重的关系属性名称。如果未指定,算法将作为无权重运行。

sourceNodes

节点/数字或列表,或作为列表的对列表

[]

用于计算个性化 Article Rank 的节点、节点 ID 或节点-偏置对。若要对不同的源节点使用不同的偏置,请使用以下语法:[[nodeId1, bias1], [nodeId2, bias2], …​]

scaler

字符串或映射

None

应用于最终得分的缩放器名称。支持的值包括 NoneMinMaxMaxMeanLogStdScore。如需应用特定的缩放器配置,请使用映射语法:{scaler: 'name', …​}

3. 在 GDS 会话中,默认值为可用处理器的数量。

表 12. 结果
名称 类型 描述

ranIterations

整数

运行的迭代次数。

didConverge

布尔值

指示算法是否收敛。

preProcessingMillis

整数

预处理图的毫秒数。

computeMillis

整数

运行算法的毫秒数。

postProcessingMillis

整数

计算 centralityDistribution 所需的毫秒数。

writeMillis

整数

将结果数据写回的毫秒数。

nodePropertiesWritten

整数

写入 Neo4j 的属性数量。

centralityDistribution

Map

包含中心性分数的最小值、最大值、平均值以及 p50、p75、p90、p95、p99 和 p999 百分位值的映射。

配置

Map

用于运行算法的配置。

示例

以下所有示例应在空数据库中运行。

这些示例将 Cypher 投影作为规范。原生投影将在未来版本中弃用。

在本节中,我们将展示在具体图表上运行 Article Rank 算法的示例。目的是为了说明结果的样子,并为如何在实际场景中使用该算法提供指南。我们将在一个由少数节点以特定模式连接的小型网络图上进行演示。示例图如下所示:

Visualization of the example graph
以下 Cypher 语句将在 Neo4j 数据库中创建示例图:
CREATE
  (home:Page {name:'Home'}),
  (about:Page {name:'About'}),
  (product:Page {name:'Product'}),
  (links:Page {name:'Links'}),
  (a:Page {name:'Site A'}),
  (b:Page {name:'Site B'}),
  (c:Page {name:'Site C'}),
  (d:Page {name:'Site D'}),

  (home)-[:LINKS {weight: 0.2}]->(about),
  (home)-[:LINKS {weight: 0.2}]->(links),
  (home)-[:LINKS {weight: 0.6}]->(product),
  (about)-[:LINKS {weight: 1.0}]->(home),
  (product)-[:LINKS {weight: 1.0}]->(home),
  (a)-[:LINKS {weight: 1.0}]->(home),
  (b)-[:LINKS {weight: 1.0}]->(home),
  (c)-[:LINKS {weight: 1.0}]->(home),
  (d)-[:LINKS {weight: 1.0}]->(home),
  (links)-[:LINKS {weight: 0.8}]->(home),
  (links)-[:LINKS {weight: 0.05}]->(a),
  (links)-[:LINKS {weight: 0.05}]->(b),
  (links)-[:LINKS {weight: 0.05}]->(c),
  (links)-[:LINKS {weight: 0.05}]->(d);

此图表示八个页面,它们相互链接。每个关系都有一个名为 weight 的属性,用于描述关系的重要性。

以下语句将使用 Cypher 投影来投影一个图,并将其以“myGraph”的名称存储在图目录中。
MATCH (source:Page)-[r:LINKS]->(target:Page)
RETURN gds.graph.project(
  'myGraph',
  source,
  target,
  { relationshipProperties: r { .weight } }
)

内存估算

首先,我们将使用 estimate 过程估算运行算法的成本。这可以在任何执行模式下完成。在这个例子中我们将使用 write 模式。估算算法有助于了解在您的图上运行该算法将产生的内存影响。当您随后在其中一种执行模式下真正运行算法时,系统将执行一次估算。如果估算显示执行超出其内存限制的可能性非常高,则禁止执行。要阅读更多关于此的内容,请参阅 自动估算和执行阻塞

有关 estimate 的更多详细信息,请参阅 内存估算

以下内容将估算运行算法所需的内存
CALL gds.articleRank.write.estimate('myGraph', {
  writeProperty: 'centrality',
  maxIterations: 20
})
YIELD nodeCount, relationshipCount, bytesMin, bytesMax, requiredMemory
表 13. 结果
nodeCount relationshipCount bytesMin bytesMax requiredMemory

8

14

696

696

"696 字节"

流 (Stream)

stream 执行模式下,算法返回每个节点的分数。这使我们能够直接检查结果,或在 Cypher 中进行后期处理,且不会产生任何副作用。例如,我们可以对结果进行排序,以找到具有最高特征向量分数的节点。

有关 stream 模式的更多详细信息,请参阅 流式读取

以下语句将以 stream 模式运行该算法:
CALL gds.articleRank.stream('myGraph')
YIELD nodeId, score
RETURN gds.util.asNode(nodeId).name AS name, score
ORDER BY score DESC, name ASC
表 14. 结果
名称 (name) score

"Home"

0.5607071761939444

"About"

0.250337073634706

"Links"

0.250337073634706

"Product"

0.250337073634706

"Site A"

0.18152391630760797

"Site B"

0.18152391630760797

"Site C"

0.18152391630760797

"Site D"

0.18152391630760797

上述查询以 unweighted(无权重)模式运行 stream 算法。在下方,可以找到 加权图 的示例。

统计 (Stats)

stats 执行模式下,算法返回一行包含算法结果摘要的数据。例如,特征向量统计返回中心性直方图,该直方图可用于监控所有计算节点上中心性分数的分布。此执行模式没有任何副作用。它对于通过检查 computeMillis 返回项来评估算法性能非常有用。在下面的示例中,我们将省略返回的时间信息。程序的完整签名可以在 语法部分 中找到。

有关 stats 模式的更多详细信息,请参阅 统计

以下代码将运行算法并返回关于中心性分数的统计信息。
CALL gds.articleRank.stats('myGraph')
YIELD centralityDistribution
RETURN centralityDistribution.max AS max
表 15. 结果
最大值

0.560710907

变更 (Mutate)

mutate 执行模式扩展了 stats 模式,并产生一个重要的副作用:使用包含该节点得分的新节点属性来更新命名图。新属性的名称通过强制配置参数 mutateProperty 指定。结果是一行总结信息,类似于 stats,但包含一些额外的指标。当结合使用多种算法时,mutate 模式特别有用。

有关 mutate 模式的更多详细信息,请参阅 变更

以下语句将以 mutate 模式运行该算法:
CALL gds.articleRank.mutate('myGraph', {
  mutateProperty: 'centrality'
})
YIELD nodePropertiesWritten, ranIterations
表 16. 结果
nodePropertiesWritten ranIterations

8

19

写入 (Write)

write 执行模式扩展了 stats 模式,并产生一个重要的副作用:将每个节点的得分作为属性写入 Neo4j 数据库。新属性的名称通过强制配置参数 writeProperty 指定。结果是一行总结信息,类似于 stats,但包含一些额外的指标。write 模式支持将结果直接持久化到数据库中。

有关 write 模式的更多详细信息,请参阅 写入

以下语句将以 write 模式运行该算法:
CALL gds.articleRank.write('myGraph', {
  writeProperty: 'centrality'
})
YIELD nodePropertiesWritten, ranIterations
表 17. 结果
nodePropertiesWritten ranIterations

8

19

加权 (Weighted)

默认情况下,算法认为图的关系是无权重的。要改变这种行为,我们可以使用 relationshipWeightProperty 配置参数。如果设置了该参数,关联的属性值将用作关系权重。在 weighted(加权)情况下,节点发送给其邻居的前一个得分会乘以归一化后的关系权重。请注意,负的关系权重在计算过程中会被忽略。

在以下示例中,我们使用输入图的 weight 属性作为关系权重属性。

以下内容将使用关系权重以 stream 模式运行算法
CALL gds.articleRank.stream('myGraph', {
  relationshipWeightProperty: 'weight'
})
YIELD nodeId, score
RETURN gds.util.asNode(nodeId).name AS name, score
ORDER BY score DESC, name ASC
表 18. 结果
名称 (name) score

"Home"

0.5160810726222141

"Product"

0.24570958074084706

"About"

0.1819031935802824

"Links"

0.1819031935802824

"Site A"

0.15281123078335393

"Site B"

0.15281123078335393

"Site C"

0.15281123078335393

"Site D"

0.15281123078335393

与无权重示例一样,“Home”节点的分数最高。相反,“Product”现在的排名从第四位升至第二位。

我们使用 stream 模式来说明如何以 weighted(加权)方式运行算法,但是所有算法模式都支持 relationshipWeightProperty 配置参数。

容差 (Tolerance)

tolerance 配置参数表示迭代之间得分的最小变化量。如果所有得分的变化均小于配置的容差,迭代将中止并被视为已收敛。请注意,设置较高的容差会导致更早收敛,但也会降低中心度得分的准确性。

以下代码将使用较高的 tolerance 值在 stream 模式下运行算法
CALL gds.articleRank.stream('myGraph', {
  tolerance: 0.1
})
YIELD nodeId, score
RETURN gds.util.asNode(nodeId).name AS name, score
ORDER BY score DESC, name ASC
表 19. 结果
名称 (name) score

"Home"

0.4470707071

"About"

0.2300021265

"Links"

0.2300021265

"Product"

0.2300021265

"Site A"

0.1688888889

"Site B"

0.1688888889

"Site C"

0.1688888889

"Site D"

0.1688888889

我们使用了 tolerance: 0.1,与 流示例 相比,这导致了略有不同的结果。然而,计算在四次迭代后收敛,我们已经可以观察到结果分数的趋势。

个性化 Article Rank

个性化 Article Rank 是 Article Rank 的一种变体,它偏向于一组 sourceNodes(源节点)。默认情况下,随机游走以相等的概率跳转到图中的任何节点。与 PageRank 一样,这可以更改为仅跳转到一组 sourceNodes

以下示例展示了如何围绕“Site A”和“Site B”运行 Article Rank。

以下命令将运行算法并流式传输结果
MATCH (siteA:Page {name: 'Site A'}), (siteB:Page {name: 'Site B'})
CALL gds.articleRank.stream('myGraph', {
  maxIterations: 20,
  sourceNodes: [siteA, siteB]
})
YIELD nodeId, score
RETURN gds.util.asNode(nodeId).name AS name, score
ORDER BY score DESC, name ASC
表 20. 结果
名称 (name) score

"Site A"

0.15249052775314756

"Site B"

0.15249052775314756

"Home"

0.1105231342997017

"About"

0.019777824032578193

"Links"

0.019777824032578193

"Product"

0.019777824032578193

"Site C"

0.002490527753147571

"Site D"

0.002490527753147571

将这些结果与 流示例(未使用 sourceNodes 配置参数)的结果进行比较,可以看出我们在 sourceNodes 列表中使用的“Site A”和“Site B”节点现在的排名分别是第二和第三,而不是第四和第五。

带偏置的个性化 Article Rank

与个性化 PageRank 类似,GDS 允许对 sourceNodes 进行不同的加权,从而增加跳转到某些节点的可能性,而非其他节点。

以下示例展示了如何围绕“Site A”和“Site B”运行 Article Rank,其中“Site B”的偏置是“Site A”的两倍。带偏置的源节点以节点-值对(列表)的形式输入。

以下命令将运行算法并流式传输结果
MATCH (siteA:Page {name: 'Site A'}), (siteB:Page {name: 'Site B'})
CALL gds.articleRank.stream('myGraph', {
  maxIterations: 100,
  tolerance: 0,
  sourceNodes: [[siteA, 1], [siteB, 2]]
})
YIELD nodeId, score
RETURN gds.util.asNode(nodeId).name AS name, score
ORDER BY score DESC, name ASC
表 21. 结果
名称 (name) score

"Site B"

0.303735818640820054

"Home"

0.165785031378950204

"Site A"

0.153735818640819949

"About"

0.029666795088864776

"Links"

0.029666795088864776

"Product"

0.029666795088864776

"Site C"

0.003735818640820008

"Site D"

0.003735818640820008

缩放中心性分数

要在算法执行过程中规范化最终分数,可以使用 scaler 配置参数。所有可用缩放器的描述可以在 scaleProperties 过程的文档中找到。

以下内容将以 stream 模式运行算法并返回归一化结果
CALL gds.articleRank.stream('myGraph', {
  scaler: "StdScore"
})
YIELD nodeId, score
RETURN gds.util.asNode(nodeId).name AS name, score
ORDER BY score DESC, name ASC
表 22. 结果
名称 (name) score

"Home"

2.550761988515413

"About"

-0.036593974039468

"Links"

-0.036593974039468

"Product"

-0.036593974039468

"Site A"

-0.610245016599252

"Site B"

-0.610245016599252

"Site C"

-0.610245016599252

"Site D"

-0.610245016599252

将结果与 流示例 进行比较,我们可以看到分数的相对顺序是相同的。