Pytorch-geometric 图神经网络库教程（一）

前言之前我是一直使用DGL这个图神经网络库做图神经网络方面的研究的，DGL也是一个特别漂亮的图神经网络开源库。但是DGL有如下两个缺点：DGL适合跑那种邻接矩阵是良性定义的graph。良性定义是指Aij∈{0,1}A_{ij}\in\{0,1\}Aij∈{0,1}，邻居矩阵的每个元素不能是连续的。DGL的库更新的慢。此外，DGL主要是基于传统的图计算那套方法来实现的，里面有mailbox之类的，

Icoding_F2014

3510人浏览 · 2021-04-05 21:01:00

Icoding_F2014 · 2021-04-05 21:01:00 发布

前言

之前我是一直使用DGL这个图神经网络库做图神经网络方面的研究的，DGL也是一个特别漂亮的图神经网络开源库。但是DGL有如下两个缺点：

DGL适合跑那种邻接矩阵是良性定义的graph。良性定义是指 $Aij∈{0,1}A_{ij}\in\{0,1\}$ ，邻居矩阵的每个元素不能是连续的。
DGL的库更新的慢。

此外，DGL主要是基于传统的图计算那套方法来实现的，里面有mailbox之类的，并不是用数学公式来直接表达。

Pytorch-geometric则是可以解决如上的两个缺点。
因此，接下来会有一系列的教程介绍pyg库的使用。

安装

pytorch-geometric需要以pytorch1.7.0以上为基础，因此首先需要安装pytorch 1.7.0或pytorch 1.7.1 或pytorch 1.8.0 或Pytorch 1.8.1，我们选择pytorch 1.7.0版本的吧。
相应版本的pytorch的安装见：https://blog.csdn.net/jmh1996/article/details/115367376

安装pyg:

pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-cluster -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-spline-conv -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-geometric

其中在实际安装的时候，需要把上面指令的${CUDA}换成具体的值，这些值包括：
在这里插入图片描述
比如，安装cu101版本的，那么实际的安装指令就应该是：

pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-cluster -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-spline-conv -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-geometric

图数据的表示

图神经网络是跑在图上面的，一般图的定义为 $G = (V, E)$ 包含了顶点和边。
其中每个顶点会有它的特征矩阵 $X∈R∣V∣×dX\in R^{|V| \times d}$ ，d是特征的维度。每个边也可以有自己的边特征。

在pyg里面，使用torch_geometric.data.Data 实例来封装一个图。
这个类的实例，都会包含以下成员变量：

x : 节点的特征矩阵，形状为[节点数，特征维数]
edge_index : 用稀疏形式表示的连接矩阵。形状为[2,边数目]，(edge[0][k],edge[1][k]) 表示第k条边的源节点与目标节点。
edge_attr: 边的特征矩阵，形状为[边数，特征维数]
y: 标签信息。对于节点分类，形状应该为[节点数，*]；对于图分类，形状应该是[1， *]

举个例子，为了表示如下这个图：
在这里插入图片描述
我们的可以这样定义：

import torch
from torch_geometric.data import Data

edge_index = torch.tensor([[0, 1, 1, 2],
                           [1, 0, 2, 1]], dtype=torch.long)
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)

data = Data(x=x, edge_index=edge_index)

Mini-batches

在pyg里面，为了一个batch一个batch的跑图神经网络，需要把一个batch的所有图都拼接在一起形成一个大图；拼接的时候，主要是把连接矩阵拼接，把节点特征拼接，把标签信息拼接。
在这里插入图片描述
当然在这个大图里面，来自不同样本的节点之间是不存在连接的。
torch_geometric.data.DataLoader 类帮我们实现好了batch里面样本的拼接过程，我们直接拿来用就可以了。
他的用法如下：

from torch_geometric.datasets import TUDataset
from torch_geometric.data import DataLoader

dataset = TUDataset(root='/tmp/ENZYMES', name='ENZYMES', use_node_attr=True)
loader = DataLoader(dataset, batch_size=32, shuffle=True)

for batch in loader:
    batch

也就是使用上面提到的torch_geometric.data.Data对象是初始化化一个DataLoader对象。
DataLoader需要制定batch_size的大小，以及是否需要随机打乱顺序。不得不说，pytorch还是把很多基础功能都实现好了，蛮方便的。

对于每个batch,它是一张大图，因此也可以像访问torch_geometric.data.Data对象的属性那样去访问这个大图的节点特征矩阵x,边特征矩阵edge_attr，标签信息y等等。
此外每个batch还有一个特殊的列向量：batch.batch，它表示在这个批次的大图里面，各个节点在这个批次的第几个子图里面。也就是说 $b a t c h . b a t c h [i] = j$ 表示这张大图的第i个节点是来自第j个小图的。
在这里插入图片描述

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

AI 浪潮下的锚与帆：工程师文化的变与不变 | 架构师夜生活

腾讯云开发者社区

腾讯云架构师技术沙龙 · 长沙站圆满落幕，共话AI驱动下的技术架构与前沿应用

人工智能已成为推动技术创新与产业变革的重要引擎，开发者正身处一场前所未有的技术变革之中。通过本次腾讯云架构师技术沙龙，各位专家深入分享前沿技术洞察，探讨 AI 落地的应用路径与实践经验，为架构师的职业发展指明方向。腾讯云架构师长沙同盟和腾讯云架构师技术同盟长沙地区理事会正式成立。未来，腾讯云架构师长沙同盟将凝心聚力，打造属于本地架构师的学习与成长的家园，助力中国架构的蓬勃发展。未来已来，让我们携手

腾讯云开发者社区

从具身智能到行业应用，腾讯云携业界专家共话 AI 新趋势

在热烈的讨论气氛下，本次活动圆满落幕。与会专家实地参观大模型创新生态社区“模速空间”，体验 AI 前沿创新应用落地。来自工业制造、数字化、AI领域的专家分享最新 AI 落地实践与思考，共同探讨从认知智能到物理交互的前沿先进路径，让我们看到AI在各行业释放出的巨大潜力。在头脑风暴环节，各位专家从不同角度深入探讨 AI 技术发展路径，提出诸多具有建设性的观点与建议，提供创新思路与方向，开启智能新时代的