通俗易懂 | 图神经网络入门笔记

作者|Rosey拜读了Jure Leskovec的《Representation Learning on Networks》才明白图神经网络到底在学什么，是如何学的，不同GNN模型之间...

kaiyuan_sjtu

931人浏览 · 2021-04-26 17:15:00

kaiyuan_sjtu · 2021-04-26 17:15:00 发布

作者 | Rosey

拜读了Jure Leskovec的《Representation Learning on Networks》才明白图神经网络到底在学什么，是如何学的，不同GNN模型之间的关系是什么。总的来说，不同类型的模型都是在探讨「如何利用图的节点信息去生成节点（图）的embedding表示」。

图表示学习的两大主流思想

线性化思想
- Deepwalk，Node2vec，LINE
图神经网络
- GCN，GraphSAGE，Gated GNN，subgraph embedding

Node embedding

「目标」：编码节点使其在embedding空间的相似性「近似」为在原网络的相似性

定义编码器encoder
定义节点相似性函数
优化参数使

可以看出，前两步是node embedding的核心。

第一个问题：如何映射节点到低维空间？

参考word2vec，借助embedding-lookup就可以

第二个问题：如何定义节点相似性？

「1. Adjacency-based similarity」

Similarity function 定义为原网络中两节点之间的边的权重
用点积近似边是否存在
找到使损失最小化的 embedding matrix

「2. Multi-hop similarity」

考虑 k-hop 节点

上述方法的大致思想都是：

定义节点对的相似性
优化embedding去近似它们的相似性

「3.Random walk approaches」

DeepWalk，Node2vec等，具体可参见之前的文章

Graph neural networks

图G定义为：

V 顶点集
A 邻接矩阵
为节点特征矩阵
- 文本、图像，例如社交网络中人口学信息
- 节点的度，聚类系数等

「如何表示节点」

核心思想：根据邻居节点生成节点的embedding

每个节点拥有独立的计算图
how to aggregate information across the layers
- 最简单的方法就是求均值
- 其他方法......
定义loss训练模型
- 无监督
- 有监督

下面不同的GNN算法都是在「探索如何利用邻域节点生成当前节点的embedding表示」

「GNN基础思想」
「GCN」
「GraphSAGE」

AGG函数可以定义为：
- Mean
- Pool
- LSTM
「Gated Graph Neural Networks」

「上述方法都是nodel-level embeddings」，如何embedding图？

Subgraph Embeddings
- 可以对子图的节点求和
- 引入“虚拟节点”表示子图

以上内容仅是对图神经网络初步了解的学习，《Representation Learning on Networks》^[1]非常适合入门GNN，推荐大家阅读，有问题欢迎交流。

一起交流

想和你一起学习进步！『NewBeeNLP』目前已经建立了多个不同方向交流群（机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等），名额有限，赶紧添加下方微信加入一起讨论交流吧！（注意一定要备注信息才能通过）

本文参考资料

[1]

《Representation Learning on Networks》: http://snap.stanford.edu/proj/embeddings-www/

[2]

Graph Representation Learning: https://jian-tang.com/files/AAAI19/aaai-grltutorial-part0-intro.pdf

- END -

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git