前言

之前我是一直使用DGL这个图神经网络库做图神经网络方面的研究的,DGL也是一个特别漂亮的图神经网络开源库。但是DGL有如下两个缺点:

  1. DGL适合跑那种邻接矩阵是良性定义的graph。良性定义是指 A i j ∈ { 0 , 1 } A_{ij}\in\{0,1\} Aij{0,1},邻居矩阵的每个元素不能是连续的。
  2. DGL的库更新的慢。

此外,DGL主要是基于传统的图计算那套方法来实现的,里面有mailbox之类的,并不是用数学公式来直接表达。

Pytorch-geometric则是可以解决如上的两个缺点。
因此,接下来会有一系列的教程介绍pyg库的使用。

安装

pytorch-geometric需要以pytorch1.7.0以上为基础,因此首先需要安装pytorch 1.7.0或pytorch 1.7.1 或pytorch 1.8.0 或Pytorch 1.8.1,我们选择pytorch 1.7.0版本的吧。
相应版本的pytorch的安装见:https://blog.csdn.net/jmh1996/article/details/115367376

安装pyg:

pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-cluster -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-spline-conv -f https://pytorch-geometric.com/whl/torch-1.7.0+${CUDA}.html
pip install torch-geometric

其中在实际安装的时候,需要把上面指令的${CUDA}换成具体的值,这些值包括:
在这里插入图片描述
比如,安装cu101版本的,那么实际的安装指令就应该是:

pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-cluster -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-spline-conv -f https://pytorch-geometric.com/whl/torch-1.7.0+cu101.html
pip install torch-geometric

图数据的表示

图神经网络是跑在图上面的,一般图的定义为 G = ( V , E ) G=(V,E) G=(V,E)包含了顶点和边。
其中每个顶点会有它的特征矩阵 X ∈ R ∣ V ∣ × d X\in R^{|V| \times d} XRV×d,d是特征的维度。每个边也可以有自己的边特征。

在pyg里面,使用torch_geometric.data.Data 实例来封装一个图。
这个类的实例,都会包含以下成员变量:

  • x : 节点的特征矩阵,形状为[节点数,特征维数]
  • edge_index : 用稀疏形式表示的连接矩阵。形状为[2,边数目],(edge[0][k],edge[1][k]) 表示第k条边的源节点与目标节点。
  • edge_attr: 边的特征矩阵,形状为[边数,特征维数]
  • y: 标签信息。对于节点分类,形状应该为[节点数,*];对于图分类,形状应该是[1, *]

举个例子,为了表示如下这个图:
在这里插入图片描述
我们的可以这样定义:

import torch
from torch_geometric.data import Data

edge_index = torch.tensor([[0, 1, 1, 2],
                           [1, 0, 2, 1]], dtype=torch.long)
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)

data = Data(x=x, edge_index=edge_index)

Mini-batches

在pyg里面,为了一个batch一个batch的跑图神经网络,需要把一个batch的所有图都拼接在一起形成一个大图;拼接的时候,主要是把连接矩阵拼接,把节点特征拼接,把标签信息拼接。
在这里插入图片描述
当然在这个大图里面,来自不同样本的节点之间是不存在连接的。
torch_geometric.data.DataLoader 类帮我们实现好了batch里面样本的拼接过程,我们直接拿来用就可以了。
他的用法如下:

from torch_geometric.datasets import TUDataset
from torch_geometric.data import DataLoader

dataset = TUDataset(root='/tmp/ENZYMES', name='ENZYMES', use_node_attr=True)
loader = DataLoader(dataset, batch_size=32, shuffle=True)

for batch in loader:
    batch

也就是使用上面提到的torch_geometric.data.Data对象是初始化化一个DataLoader对象。
DataLoader需要制定batch_size的大小,以及是否需要随机打乱顺序。不得不说,pytorch还是把很多基础功能都实现好了,蛮方便的。

对于每个batch,它是一张大图,因此也可以像访问torch_geometric.data.Data对象的属性那样去访问这个大图的节点特征矩阵x,边特征矩阵edge_attr,标签信息y等等。
此外每个batch还有一个特殊的列向量:batch.batch,它表示在这个批次的大图里面,各个节点在这个批次的第几个子图里面。也就是说 b a t c h . b a t c h [ i ] = j batch.batch[i]=j batch.batch[i]=j 表示这张大图的第i个节点是来自第j个小图的。
在这里插入图片描述

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐