链路预测管道

此功能处于 Beta 测试阶段。有关功能分级的更多信息,请参阅 API 分级

链路预测是应用于图的一种常见机器学习任务:训练模型以学习图中的节点对之间应当存在哪些关系。更准确地说,机器学习模型的输入是节点对的示例。在训练过程中,这些节点对会被标记为相邻或不相邻。

在 GDS 中,我们提供链路预测流水线,它们提供了一个从特征提取到链路预测的端到端工作流。训练流水线驻留在流水线目录中。当执行训练流水线时,会创建一个预测模型并将其存储在模型目录中。

训练流水线包含三个阶段的序列

  1. 从图中导出三组节点对:特征集、训练集和测试集。后两者带有标签。

  2. 通过在仅包含特征集关系的图上运行一系列步骤,为图中的节点增加新的属性。

  3. 训练集和测试集用于训练链路预测流水线。链路特征是通过组合节点对的节点属性而导出的。

对于训练集和测试集,正例从图中的关系中选择。负例则从未相邻的节点中采样得出。

用户可以配置应包含上述哪些步骤。这些步骤执行 GDS 算法以创建新的节点属性。在配置完节点属性步骤后,用户可以定义如何将节点对的节点属性组合为链路特征。训练阶段 (III) 使用交叉验证训练多个模型候选者,选择最佳模型,并报告相关的性能指标。

训练流水线之后,会创建一个预测模型。该模型包含了训练流水线中的节点属性步骤和链路特征步骤,并使用它们来生成用于预测新关系的特征。预测模型可用于推断两个非相邻节点之间存在关系的概率。

预测只能通过预测模型来完成(不能使用训练流水线)。

本节分为以下页面