Yen’s 最短路径算法

术语表

有向

有向特征。该算法在有向图上定义良好。

有向

有向特征。该算法忽略图的方向。

有向

有向特征。该算法不能在有向图上运行。

无向

无向特征。该算法在无向图上定义良好。

无向

无向特征。该算法忽略图的无向性。

异构节点

异构节点完全支持。该算法有能力区分不同类型的节点。

异构节点

异构节点允许。该算法平等对待所有选定的节点,无论其标签如何。

异构关系

异构关系完全支持。该算法有能力区分不同类型的关系。

异构关系

异构关系允许。该算法平等对待所有选定的关系,无论其类型如何。

加权关系

加权特征。该算法支持将关系属性用作权重,通过 relationshipWeightProperty 配置参数指定。

加权关系

加权特征。该算法将每个关系视为同等重要,忽略任何关系权重值。

节点属性

节点属性特征。该算法使用节点属性。

简介

Yen’s 最短路径算法用于计算两个节点之间的多条最短路径。该算法通常被称为 Yen’s k-最短路径算法,其中 k 是要计算的最短路径的数量。该算法支持具有正权重的加权图。在计算多条最短路径时,它还会考虑同一两个节点之间的平行关系。

k = 1 时,该算法的表现与 Dijkstra 最短路径算法 完全一致,返回最短路径。当 k = 2 时,该算法返回同一源节点和目标节点之间的最短路径和次短路径。通常,对于 k = n,该算法最多计算 n 条路径,这些路径按总成本从小到大的顺序被发现。

GDS 的实现基于原始描述。在实际的路径计算中,Yen’s 算法使用了 Dijkstra 最短路径算法。该算法确保不会再次遍历已经发现的最短路径。

该算法的实现是并行化的,但受到源-目标路径中节点数量的限制。如果预期这些路径的长度较短(即只有少量新节点),则不建议设置较高的并发值,因为某些核心可能无法得到利用。

语法

本节介绍了在 Yen’s 算法的每种执行模式下所使用的语法。我们描述的是命名图(named graph)变体语法。要了解更多关于通用语法变体的信息,请参阅 语法概述

Yen’s 每种模式下的语法
在命名图上以流(stream)模式运行 Yen’s 算法。
CALL gds.shortestPath.yens.stream(
  graphName: String,
  configuration: Map
)
YIELD
  index: Integer,
  sourceNode: Integer,
  targetNode: Integer,
  totalCost: Float,
  nodeIds: List of Integer,
  costs: List of Float,
  path: Path
表 1. 参数
名称 类型 默认 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

配置

Map

{}

算法特定配置和/或图过滤配置。

表 2. 配置
名称 类型 默认 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。具有任何给定标签的节点都将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。具有任何给定类型的关系都将被包含。

concurrency

整数

4 [1]

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供一个 ID 以更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,进度百分比将不会被记录。

sourceNode

整数

不适用

Neo4j 源节点或节点 ID。

targetNode

整数

不适用

Neo4j 目标节点或节点 ID。

k

整数

1

在源节点和目标节点之间计算的最短路径数量。

relationshipWeightProperty

字符串

null

用作权重的关系属性名称。如果未指定,算法将作为无权重运行。

1. 在 GDS 会话中,默认值为可用处理器的数量。

表 3. 结果
名称 类型 描述

index

整数

已发现路径的从 0 开始的索引。

sourceNode

整数

路径的源节点。

targetNode

整数

路径的目标节点。

totalCost

浮点数

从源到目标的总成本。

nodeIds

整数列表

遍历顺序中路径上的节点 ID。

costs

浮点数列表

路径上每个节点的累计成本。

path

路径

以 Cypher 实体表示的路径。

变异(mutate)模式在投影图中创建新的关系。每种关系代表从源节点到目标节点的一条路径。路径的总成本存储在 totalCost 关系属性中。

在命名图上以变异(mutate)模式运行 Yen’s 算法。
CALL gds.shortestPath.yens.mutate(
  graphName: String,
  configuration: Map
)
YIELD
  relationshipsWritten: Integer,
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  mutateMillis: Integer,
  configuration: Map
表 4. 参数
名称 类型 默认 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

配置

Map

{}

算法特定配置和/或图过滤配置。

表 5. 配置
名称 类型 默认 可选 描述

mutateRelationshipType

字符串

不适用

用于写入投影图的新关系的关系类型。

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。

concurrency

整数

4

用于运行算法的并发线程数。

logProgress

布尔值

true

如果禁用,进度百分比将不会被记录。

jobId

字符串

内部生成

可以提供一个 ID 以更轻松地跟踪算法的进度。

sourceNode

整数

不适用

Neo4j 源节点或节点 ID。

targetNode

整数

不适用

Neo4j 目标节点或节点 ID。

k

整数

1

在源节点和目标节点之间计算的最短路径数量。

relationshipWeightProperty

字符串

null

用作权重的关系属性名称。如果未指定,算法将作为无权重运行。

表 6. 结果
名称 类型 描述

preProcessingMillis

整数

预处理图的毫秒数。

computeMillis

整数

运行算法的毫秒数。

postProcessingMillis

整数

未使用。

mutateMillis

整数

向投影图添加关系所需的毫秒数。

relationshipsWritten

整数

添加的关系数量。

配置

Map

用于运行算法的配置。

写入(write)模式在 Neo4j 数据库中创建新的关系。每种关系代表从源节点到目标节点的一条路径。额外的路径信息使用关系属性存储。默认情况下,写入模式存储 totalCost 属性。用户还可以选择存储路径上中间节点的 nodeIdscosts

在命名图上以写入(write)模式运行 Yen’s 算法。
CALL gds.shortestPath.yens.write(
  graphName: String,
  configuration: Map
)
YIELD
  relationshipsWritten: Integer,
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  writeMillis: Integer,
  configuration: Map
表 7. 参数
名称 类型 默认 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

配置

Map

{}

算法特定配置和/或图过滤配置。

表 8. 配置
名称 类型 默认 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。具有任何给定标签的节点都将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。具有任何给定类型的关系都将被包含。

concurrency

整数

4 [2]

用于运行算法的并发线程数。

jobId

字符串

内部生成

可以提供一个 ID 以更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,进度百分比将不会被记录。

writeConcurrency

整数

'concurrency' 的值

用于将结果写入 Neo4j 的并发线程数。

writeRelationshipType

字符串

不适用

用于将计算出的关系持久化到 Neo4j 数据库的关系类型。

sourceNode

整数

不适用

Neo4j 源节点或节点 ID。

targetNode

整数

不适用

Neo4j 目标节点或节点 ID。

k

整数

1

在源节点和目标节点之间计算的最短路径数量。

relationshipWeightProperty

字符串

null

用作权重的关系属性名称。如果未指定,算法将作为无权重运行。

writeNodeIds

布尔值

false

如果为 true,则写入的关系具有 nodeIds 列表属性。

writeCosts

布尔值

false

如果为 true,则写入的关系具有 costs 列表属性。

2. 在 GDS 会话中,默认值为可用处理器的数量。

表 9. 结果
名称 类型 描述

preProcessingMillis

整数

预处理图的毫秒数。

computeMillis

整数

运行算法的毫秒数。

postProcessingMillis

整数

未使用。

writeMillis

整数

将关系写入 Neo4j 所需的毫秒数。

relationshipsWritten

整数

写入的关系数量。

配置

Map

用于运行算法的配置。

示例

以下所有示例应在空数据库中运行。

这些示例将 Cypher 投影作为规范。原生投影将在未来版本中弃用。

在本节中,我们将展示在具体图上运行 Yen’s 算法的示例。目的是说明结果的样子,并为如何在实际环境中使用该算法提供指导。我们将使用一个小型的交通网络图,其中的节点以特定的模式连接。示例图如下所示

Visualization of the example graph
以下 Cypher 语句将在 Neo4j 数据库中创建示例图:
CREATE (a:Location {name: 'A'}),
       (b:Location {name: 'B'}),
       (c:Location {name: 'C'}),
       (d:Location {name: 'D'}),
       (e:Location {name: 'E'}),
       (f:Location {name: 'F'}),
       (a)-[:ROAD {cost: 50}]->(b),
       (a)-[:ROAD {cost: 50}]->(c),
       (a)-[:ROAD {cost: 100}]->(d),
       (b)-[:ROAD {cost: 40}]->(d),
       (c)-[:ROAD {cost: 40}]->(d),
       (c)-[:ROAD {cost: 80}]->(e),
       (d)-[:ROAD {cost: 30}]->(e),
       (d)-[:ROAD {cost: 80}]->(f),
       (e)-[:ROAD {cost: 40}]->(f);

此图构建了一个位置之间有道路的交通网络。像现实世界一样,图中的道路具有不同的长度。这些长度由 cost 关系属性表示。

以下语句将使用 Cypher 投影来投影一个图,并将其以“myGraph”的名称存储在图目录中。
MATCH (source:Location)-[r:ROAD]->(target:Location)
RETURN gds.graph.project(
  'myGraph',
  source,
  target,
  { relationshipProperties: r { .cost } }
)

在下面的示例中,我们将演示如何使用此图运行 Yen’s 最短路径算法。

内存估算

首先,我们将使用 estimate 过程估算运行算法的成本。这可以在任何执行模式下完成。在这个例子中我们将使用 write 模式。估算算法有助于了解在您的图上运行该算法将产生的内存影响。当您随后在其中一种执行模式下真正运行算法时,系统将执行一次估算。如果估算显示执行超出其内存限制的可能性非常高,则禁止执行。要阅读更多关于此的内容,请参阅 自动估算和执行阻塞

有关 estimate 的更多详细信息,请参阅 内存估算

以下内容将估算以写入模式运行算法所需的内存要求:
MATCH (source:Location {name: 'A'}), (target:Location {name: 'F'})
CALL gds.shortestPath.yens.write.estimate('myGraph', {
    sourceNode: source,
    targetNode: target,
    k: 3,
    relationshipWeightProperty: 'cost',
    writeRelationshipType: 'PATH'
})
YIELD nodeCount, relationshipCount, bytesMin, bytesMax, requiredMemory
RETURN nodeCount, relationshipCount, bytesMin, bytesMax, requiredMemory
表 10. 结果
nodeCount relationshipCount bytesMin bytesMax requiredMemory

6

9

4664

4664

"4664 字节"

流(Stream)模式

stream 执行模式下,算法返回每一对源-目标的最短路径。这使我们能够直接检查结果或在 Cypher 中对其进行后处理,而不会产生任何副作用。

有关 stream 模式的更多详细信息,请参阅 流式读取

以下命令将运行算法并流式传输结果
MATCH (source:Location {name: 'A'}), (target:Location {name: 'F'})
CALL gds.shortestPath.yens.stream('myGraph', {
    sourceNode: source,
    targetNode: target,
    k: 3,
    relationshipWeightProperty: 'cost'
})
YIELD index, sourceNode, targetNode, totalCost, nodeIds, costs, path
RETURN
    index,
    gds.util.asNode(sourceNode).name AS sourceNodeName,
    gds.util.asNode(targetNode).name AS targetNodeName,
    totalCost,
    [nodeId IN nodeIds | gds.util.asNode(nodeId).name] AS nodeNames,
    costs,
    nodes(path) as path
ORDER BY index
表 11. 结果
index sourceNodeName targetNodeName totalCost nodeNames costs path

0

"A"

"F"

160.0

["A", "B", "D", "E", "F"]

[0.0, 50.0, 90.0, 120.0, 160.0]

[Node[0], Node[1], Node[3], Node[4], Node[5]]

1

"A"

"F"

160.0

["A", "C", "D", "E", "F"]

[0.0, 50.0, 90.0, 120.0, 160.0]

[Node[0], Node[2], Node[3], Node[4], Node[5]]

2

"A"

"F"

170.0

["A", "B", "D", "F"]

[0.0, 50.0, 90.0, 170.0]

[Node[0], Node[1], Node[3], Node[5]]

结果显示了节点 A 和节点 F 之间的三条最短路径。前两条路径的总成本相同,但第一条路径通过 B 节点从 A 到达 D,而第二条路径则通过 C 节点。第三条路径的总成本较高,因为它使用成本为 80 的关系直接从 D 到达 F,而前两条路径绕道 E 的成本仅为 70。这一点可以在示例图中验证。Cypher Path 对象可以通过 path 返回字段返回。Path 对象包含节点对象和具有 cost 属性的虚拟关系。

变异(Mutate)模式

mutate 执行模式会使用新关系更新命名图。每条新关系代表从源节点到目标节点的一条路径。关系类型使用 mutateRelationshipType 选项进行配置。路径总成本使用 totalCost 属性存储。

当多个算法结合使用时,mutate 模式特别有用。

有关 mutate 模式的更多详细信息,请参阅 变更

以下语句将以 mutate 模式运行该算法:
MATCH (source:Location {name: 'A'}), (target:Location {name: 'F'})
CALL gds.shortestPath.yens.mutate('myGraph', {
    sourceNode: source,
    targetNode: target,
    k: 3,
    relationshipWeightProperty: 'cost',
    mutateRelationshipType: 'PATH'
})
YIELD relationshipsWritten
RETURN relationshipsWritten
表 12. 结果
relationshipsWritten

3

执行上述查询后,投影图将更新一个类型为 PATH 的新关系。新关系将存储一个单一属性 totalCost

即使输入图是无向的,所产生的关系也始终是有向的。

写入(Write)模式

write 执行模式使用新关系更新 Neo4j 数据库。每条新关系代表从源节点到目标节点的一条路径。关系类型使用 writeRelationshipType 选项进行配置。路径总成本使用 totalCost 属性存储。中间节点的 ID 使用 nodeIds 属性存储。到达中间节点的累计成本使用 costs 属性存储。

有关 write 模式的更多详细信息,请参阅 写入

以下语句将以 write 模式运行该算法:
MATCH (source:Location {name: 'A'}), (target:Location {name: 'F'})
CALL gds.shortestPath.yens.write('myGraph', {
    sourceNode: source,
    targetNode: target,
    k: 3,
    relationshipWeightProperty: 'cost',
    writeRelationshipType: 'PATH',
    writeNodeIds: true,
    writeCosts: true
})
YIELD relationshipsWritten
RETURN relationshipsWritten
表 13. 结果
relationshipsWritten

3

上述查询将写回一个类型为 PATH 的关系到 Neo4j。该关系存储了描述路径的三个属性:totalCostnodeIdscosts

即使输入图是无向的,所写入的关系也始终是有向的。

图修剪优化

在无向图和具有反向索引的图上,GDS 在预处理步骤中应用了图修剪优化,正如 PeeK: A Prune-Centric Approach for K Shortest Path Computation 中所述。

这使得 Yen’s 算法可以在较小的图上运行,在大多数情况下,这会带来显著的性能提升。特别是对于较大的 k 值。

图修剪默认应用于无向图。

为了在有向图上应用,必须在关系投影中使用 indexInverse 参数。反向索引允许算法根据相反的方向遍历节点的各种关系。

以下语句将使用 Cypher 投影来投影一个图,并将其以 'myIndexedGraph' 为名称存储在图目录中。
MATCH (source:Location)-[r:ROAD]->(target:Location)
RETURN gds.graph.project(
  'myIndexedGraph',
  source,
  target,
  { relationshipProperties: r { .cost } },
  { inverseIndexedRelationshipTypes: ['*'] }
)

以下查询与流示例相同。这一次,我们在 myIndexedGraph 上执行 Yen’s 算法,这将允许使用 Peek 修剪。

以下代码将运行带有 PeeK 修剪的算法并流式传输结果
MATCH (source:Location {name: 'A'}), (target:Location {name: 'F'})
CALL gds.shortestPath.yens.stream('myIndexedGraph', {
    sourceNode: source,
    targetNode: target,
    k: 3,
    relationshipWeightProperty: 'cost'
})
YIELD index, sourceNode, targetNode, totalCost, nodeIds, costs, path
RETURN
    index,
    gds.util.asNode(sourceNode).name AS sourceNodeName,
    gds.util.asNode(targetNode).name AS targetNodeName,
    totalCost,
    [nodeId IN nodeIds | gds.util.asNode(nodeId).name] AS nodeNames,
    costs,
    nodes(path) as path
ORDER BY index
表 14. 结果
index sourceNodeName targetNodeName totalCost nodeNames costs path

0

"A"

"F"

160.0

["A", "B", "D", "E", "F"]

[0.0, 50.0, 90.0, 120.0, 160.0]

[Node[0], Node[1], Node[3], Node[4], Node[5]]

1

"A"

"F"

160.0

["A", "C", "D", "E", "F"]

[0.0, 50.0, 90.0, 120.0, 160.0]

[Node[0], Node[2], Node[3], Node[4], Node[5]]

2

"A"

"F"

170.0

["A", "B", "D", "F"]

[0.0, 50.0, 90.0, 170.0]

[Node[0], Node[1], Node[3], Node[5]]