开发阶段的目标是建立一套实用的算法和机器学习工作流。此阶段涉及配置系统、定义图投影、选择合适的算法以及进行机器学习实验。通常会用到库中的内存估算功能,这使您能够成功配置系统以处理待处理的数据量。需要注意的资源有三种:投影图、算法数据结构和机器学习设置。
机器学习流水线
使用 Neo4j 图数据科学开发成功的机器学习流水线,通常涉及以下步骤的实验:
-
选择训练方法
-
选择用于生成图特征的算法
-
选择用于生成节点嵌入(Embedding)的算法
-
调整训练方法的参数
-
调整嵌入算法的参数
-
配置流水线训练参数
-
使用图采样在数据子集上训练模型候选者