链路预测管道
此功能处于 Beta 测试阶段。有关功能分级的更多信息,请参阅 API 分级。
链路预测是应用于图的一种常见机器学习任务:训练模型以学习图中的节点对之间应当存在哪些关系。更准确地说,机器学习模型的输入是节点对的示例。在训练过程中,这些节点对会被标记为相邻或不相邻。
训练流水线包含三个阶段的序列
-
从图中导出三组节点对:特征集、训练集和测试集。后两者带有标签。
-
通过在仅包含特征集关系的图上运行一系列步骤,为图中的节点增加新的属性。
-
训练集和测试集用于训练链路预测流水线。链路特征是通过组合节点对的节点属性而导出的。
对于训练集和测试集,正例从图中的关系中选择。负例则从未相邻的节点中采样得出。
用户可以配置应包含上述哪些步骤。这些步骤执行 GDS 算法以创建新的节点属性。在配置完节点属性步骤后,用户可以定义如何将节点对的节点属性组合为链路特征。训练阶段 (III) 使用交叉验证训练多个模型候选者,选择最佳模型,并报告相关的性能指标。
在训练流水线之后,会创建一个预测模型。该模型包含了训练流水线中的节点属性步骤和链路特征步骤,并使用它们来生成用于预测新关系的特征。预测模型可用于推断两个非相邻节点之间存在关系的概率。
| 预测只能通过预测模型来完成(不能使用训练流水线)。 |
本节分为以下页面