深度优先搜索 (Depth First Search)

术语表

有向

有向特征。该算法在有向图上定义良好。

有向

有向特征。该算法忽略图的方向。

有向

有向特征。该算法不能在有向图上运行。

无向

无向特征。该算法在无向图上定义良好。

无向

无向特征。该算法忽略图的无向性。

异构节点

异构节点完全支持。该算法有能力区分不同类型的节点。

异构节点

异构节点允许。该算法平等对待所有选定的节点,无论其标签如何。

异构关系

异构关系完全支持。该算法有能力区分不同类型的关系。

异构关系

异构关系允许。该算法平等对待所有选定的关系,无论其类型如何。

加权关系

加权特征。该算法支持将关系属性用作权重,通过 relationshipWeightProperty 配置参数指定。

加权关系

加权特征。该算法将每个关系视为同等重要,忽略任何关系权重值。

节点属性

节点属性特征。该算法使用节点属性。

简介

深度优先搜索 (Depth First Search, DFS) 算法是一种图遍历算法,从给定的节点开始,沿着每个分支尽可能深地进行探索,然后再回溯,详见 https://en.wikipedia.org/wiki/Depth-first_search。与之相关的算法是广度优先搜索算法,详见 广度优先搜索 (Breadth First Search)。如果想要找到远距离的目标节点,且随机路径成功的概率较高,那么相比广度优先搜索,深度优先搜索可能更适用。该算法支持多种遍历终止条件,包括:到达多个目标节点中的任意一个、达到最大深度、耗尽给定的关系遍历成本预算,或者仅仅遍历整个图。过程的输出包含了有关哪些节点被访问以及访问顺序的信息。

语法

深度优先搜索各模式的语法
以流 (stream) 模式运行深度优先搜索
CALL gds.dfs.stream(
  graphName: String,
  configuration: Map
)
YIELD
  sourceNode: Integer,
  nodeIds: Integer,
  path: Path
表 1. 参数
名称 类型 默认 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

配置

Map

{}

算法特定配置和/或图过滤配置。

表 2. 配置
名称 类型 默认 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。具有任何给定标签的节点都将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。具有任何给定类型的关系都将被包含。

concurrency

整数

1

该算法为单线程,更改并发参数对运行时没有影响。

jobId

字符串

内部生成

可以提供一个 ID 以更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,进度百分比将不会被记录。

sourceNode

整数

不适用

开始遍历的节点的节点 ID。

targetNodes

整数列表

空列表

目标节点的 ID。当访问到任意一个目标节点时,遍历终止。

maxDepth

整数

-1

访问节点时距源节点的最大距离。

表 3. 结果
名称 类型 描述

sourceNode

整数

开始遍历的节点的节点 ID。

nodeIds

整数列表

遍历期间访问的所有节点的 ID。

path

路径

包含遍历期间访问的所有节点的路径。

以流 (stream) 模式运行深度优先搜索
CALL gds.dfs.mutate(
  graphName: string,
  configuration: map
)
YIELD
  relationshipsWritten: Integer,
  preProcessingMillis: Integer,
  computeMillis: Integer,
  postProcessingMillis: Integer,
  mutateMillis: Integer,
  configuration: Map
表 4. 参数
名称 类型 默认 可选 描述

graphName

字符串

不适用

存储在目录中的图的名称。

配置

Map

{}

算法特定配置和/或图过滤配置。

表 5. 配置
名称 类型 默认 可选 描述

nodeLabels

字符串列表

['*']

使用给定的节点标签过滤命名图。具有任何给定标签的节点都将被包含。

relationshipTypes

字符串列表

['*']

使用给定的关系类型过滤命名图。具有任何给定类型的关系都将被包含。

concurrency

整数

1

该算法为单线程,更改并发参数对运行时没有影响。

jobId

字符串

内部生成

可以提供一个 ID 以更轻松地跟踪算法的进度。

logProgress

布尔值

true

如果禁用,进度百分比将不会被记录。

sourceNode

整数

不适用

开始遍历的节点的节点 ID。

targetNodes

整数列表

空列表

目标节点的 ID。当访问到任意一个目标节点时,遍历终止。

maxDepth

整数

-1

访问节点时距源节点的最大距离。

mutateRelationshipType

字符串

不适用

用于写入投影图的新关系的关系类型。

表 6. 结果
名称 类型 描述

preProcessingMillis

整数

预处理图的毫秒数。

computeMillis

整数

运行算法的毫秒数。

postProcessingMillis

整数

未使用。

mutateMillis

整数

向投影图添加关系所需的毫秒数。

relationshipsWritten

整数

添加的关系数量。

配置

Map

用于运行算法的配置。

示例

以下所有示例应在空数据库中运行。

这些示例将 Cypher 投影作为规范。原生投影将在未来版本中弃用。

在本节中,我们将展示在具体图上运行深度优先搜索算法的示例。目的是说明结果的样子,并为如何在实际环境中使用该算法提供指导。我们将在一个由少数节点以特定模式连接而成的小型图上进行演示。示例图如下所示:

Visualization of the example graph

考虑通过以下 Cypher 语句投影的图

CREATE
       (nA:Node {name: 'A'}),
       (nB:Node {name: 'B'}),
       (nC:Node {name: 'C'}),
       (nD:Node {name: 'D'}),
       (nE:Node {name: 'E'}),

       (nA)-[:REL]->(nB),
       (nA)-[:REL]->(nC),
       (nB)-[:REL]->(nE),
       (nC)-[:REL]->(nD)
以下语句将投影图并将其存储在图目录中。
MATCH (source:Node)-[r:REL]->(target:Node)
RETURN gds.graph.project(
  'myGraph',
  source,
  target
)

在接下来的示例中,我们将演示如何在图上使用深度优先搜索算法。

内存估算

首先,我们将使用 estimate 过程来估算运行该算法的成本。这可以在任何执行模式下完成。在本示例中,我们将使用 stream 模式。估算算法有助于了解在图上运行算法对内存的影响。当您稍后在其中一种执行模式下实际运行算法时,系统将执行一次估算。如果估算显示执行超出内存限制的可能性非常高,则禁止执行。要了解更多信息,请参阅自动估算与执行阻塞

有关 estimate 的更多详细信息,请参阅 内存估算

以下代码将估算以 stream 模式运行该算法所需的内存:
MATCH (source:Node {name: 'A'})
CALL gds.dfs.stream.estimate('myGraph', {
  sourceNode: source
})
YIELD nodeCount, relationshipCount, bytesMin, bytesMax, requiredMemory
RETURN nodeCount, relationshipCount, bytesMin, bytesMax, requiredMemory
表 7. 结果
nodeCount relationshipCount bytesMin bytesMax requiredMemory

5

4

352

352

"352 字节"

流模式

stream 执行模式下,算法会返回每个关系的遍历顺序路径。这使我们能够直接检查结果,或在 Cypher 中进行后续处理,而不会产生任何副作用。

有关 stream 模式的更多详细信息,请参阅 流式读取

运行深度优先搜索算法
MATCH (source:Node{name:'A'})
CALL gds.dfs.stream('myGraph', {
  sourceNode: source
})
YIELD path
RETURN path

如果我们未指定任何提前终止选项,算法将遍历整个图:在下图中,我们可以看到由关系类型 NEXT 标记的节点遍历顺序。

Visualization of Depth First Search stream without early termination conditions
带目标节点的深度优先搜索算法运行
MATCH (source:Node{name:'A'}), (d:Node{name:'D'}), (e:Node{name:'E'})
WITH source, [d, e] AS targetNodes
CALL gds.dfs.stream('myGraph', {
  sourceNode: source,
  targetNodes: targetNodes
})
YIELD path
RETURN path

如果将节点 DE 指定为目标节点,由于深度优先遍历顺序(在该顺序中,节点 DB 更先到达),并非距离为 1 的所有节点都会被访问。

Visualization of Depth First Search stream with target nodes
带 maxDepth(最大深度)的深度优先搜索算法运行
MATCH (source:Node{name:'A'})
CALL gds.dfs.stream('myGraph', {
  sourceNode: source,
  maxDepth: 1
})
YIELD path
RETURN path

在上述情况下,节点 DE 未被访问,因为它们距离节点 A 的距离为 2。

Visualization of Depth First Search stream with max depth

Mutate

mutate 执行模式使用新关系更新命名图。深度优先搜索算法返回的路径是一个线图,节点按算法访问它们的顺序出现。关系类型必须使用 mutateRelationshipType 选项进行配置。

当多个算法结合使用时,mutate 模式特别有用。

有关 mutate 模式的更多详细信息,请参阅 变更

深度优先搜索的 mutate 模式支持与 stream 模式相同的提前终止条件。

以下语句将以 mutate 模式运行该算法:
MATCH (source:Node{name:'A'})
CALL gds.dfs.mutate('myGraph', {
  sourceNode: source,
  mutateRelationshipType: 'DFS'
})
YIELD relationshipsWritten
RETURN relationshipsWritten
表 8. 结果
relationshipsWritten

4

执行上述查询后,内存中的图将更新为类型为 DFS 的新关系。

即使输入图是无向的,所产生的关系也始终是有向的。