一文带你浏览Graph Transformers

作者丨whistle@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/536489997

编辑丨极市平台

导读

本文通过整理分析2020-2022年不同顶会关于Graph Transformers的论文，汇总并对比了该领域的各种前沿方法。

写在前头

为什么图上要使用Transformer？

简要提一下GT带来的好处：

能捕获长距离依赖
减轻出现过平滑，过挤压现象
GT中甚至可以结合进GNN以及频域信息（Laplacian PE），模型会有更强的表现力。
利用好[CLS] token，不需要额外使用pooling function。
etc…

文章汇总

[Arxiv 2020] GRAPH-BERT: Only Attention is Needed for Learning Graph Representations

GNN过度依赖图上的链接，此外由于大图非常耗显存，可能无法直接进行操作。该论文提出了一种新的只依赖attention机制的图网络Graph-BERT，Graph-BERT的输入不是全图，而是一堆采样得到的子图（不带边）。作者使用节点属性重构以及结构恢复两个任务进行预训练，然后在下游数据集上进行微调。该方法在节点分类和图聚类任务上达到了SOTA。

和之前NLP中的BERT不一样的地方主要是position encoding，Graph-BERT使用了三种PE，分别是WL absolute PE，intimacy based relative PE和Hop based relative PE，这里三个PE都是根据complete graph计算得到的。

为了便于操作，作者将subgraph根据图亲密度矩阵（https://zhuanlan.zhihu.com/p/272754714）进行排序[i, j, …m]，其中S(i,j) > S(i,m)，得到序列化的结果。

其中Weisfeiler-Lehman Absolute Role Embedding如下：

经过WL之后，子结构一样的节点就会得到相同的hash code，如果是1-WL有点像degree centrality（针对无向图而言）。因此，WL PE可以捕获全局节点角色信息。

Intimacy based Relative Positional Embedding

这个PE捕获的是偏local的信息，因为输入已经根据图亲密度矩阵进行排序过了，这里只需要简单地设，越接近i的节点会越小。映射公式如下：

Hop based Relative Distance Embedding

该PE捕获的是介于global和local之间的信息：

将节点embedding和这些PE加起来，然后输入到Transformer中得到subgraph每个节点的表征。因为subgraph中有很多节点，作者希望最后只得到target node 的表征，因此作者还设计了一个Fusion function，原文中是把所有节点表征做一下average。都会被输出，根据下游任务选择所需的进行使用。

节点分类效果（没有进行pre-training）

总的来说这篇论文比较新颖的地方在于提出了多种图上的PE，并且在子图上的效果也可以达到之前GNN在全图上的效果，但是实验的数据集太少了，而且也没有使用比较大的图数据集，由于这些数据集较小也没有较好地展现预训练的效果。此外，采样得到的子图最后只是用目标节点进行loss计算，这样利用效率太低了，inference效率同样也很低。

[NIPS 2020] (GROVER) Self-Supervised Graph Transformer on Large-Scale Molecular Data

GNN在分子领域被广泛研究，但是该领域存在两个主要问题：（1）没有那么多标签数据，（2）在新合成的分子上表现出很差的泛化能力。为了解决这连个问题，该论文设计了node-，edge-，graph-level的自监督任务，希望可以从大量的未标注数据中捕获分子中的丰富的语义和结构信息。作者在一千万未标注的分子图上训练了一个100M参数量的GNN，然后根据下游任务进行fine-tuning，在11个数据集上都达到了SOTA（平均提升超过6个点）。

模型结构如下：

因为message passing的过程可以捕获到图中的局部结构信息，因此将数据先通过GNN得到Q，K，V，可以使得每个节点表征得到local subgraph structure的信息。然后，这些表征通过self-attention可以捕获到global的信息。为了防止message passing出现over-smoothing现象，该论文将残差链接变成了long-range residual connection，直接将原始特征接到后面。

此外，由于GNN的层数直接影响到感受野，这将影响到message passing model的泛化性。由于不同类型的数据集可能需要的GNN层数不同，提前定义好GNN的层数可能会影响到模型的性能。作者在训练的时候随机选择层数，随机选择跳的MPNN，其中或者。这种MPNN称为Dynamic Message Passing networks(dyMPN)，实验证明这种结构会比普通的MPNN好。

预训练：

论文中使用的自监督任务主要有两个：

（1）Contextual property prediction(node/edge level task)

一个好的node-level自监督任务应该满足两个性质：

预测目标是可信的并且是容易得到的。
预测目标应该反应节点或者边的上下文信息。基于这些性质，作者设计了基于节点和边的自监督任务（通过subgraph来预测目标节点/边的上下文相关的性质）。

举一个例子，给定一个target node C原子，我们首先获取它的k-hop邻居作为subgraph，当k=1，N和O原子会包含进来以及单键和双键。然后我们从这个subgraph中抽取统计特征(statistical properties)，我们会计数出针对center node (node-edge) pairs的共现次数，可表示为node-edge-counts，所有的node-edge counts terms按字母顺序排，在这个例子中，我们可以得到 C_N-DOUBLE1_O-SINGLE1。这个步骤可以看作是一个聚类过程：根据抽取得到的特征，subgraphs可以被聚类起来，一种特征(property)对应于一簇具有相同统计属性的子图。

通过这种具有context-aware property的定义，全局性质预测任务可以分为以下流程：

输入一个分子图，通过GROVER encoder我们可以得到原子和边的embeddings，随机选择原子 (它的embedding为 )。我们不是预测原子的类别，而是希望能够编码node 周围的一些上下文信息(contextual information)，实现这一目的的方式是将输入到一个非常简单的model(一层全连接)，然后使用它的输出去预测节点的上下文属性(contextual properties)，这个预测是一个multi-class classification(一个类别对应一种contextual property)。

（2）Graph-level motif prediction

Graph-level的自监督任务也需要可信和廉价的标签，motifs是input graph data中频繁出现的sub-graphs。一类重要的motifs是官能团，它编码了分子的丰富的领域知识，并且能够被专业的软件检测到(e.g. RDKit)。因此，我们可以将motif prediction task公式化成一个多分类问题，每一个motif对应一个label。假设分子数据集中存在p个motifs ，对于某个具体的分子，我们使用RDKit检测该分子中是否出现了motif，然后把其构建为motif prediction task的目标。

针对下游任务进行微调：

在海量未标注数据上完成pre-training后，我们获得了一个高质量的分子encoder，针对具体的下游任务（e.g. node classification, link prediction, the property prediction for molecules, etc），我们需要对模型进行微调，针对graph-level的下游任务，我们还需要一个额外的readout函数来得到全图的表征（node-level和edge-level就不需要readout函数了），然后接一个MLP进行分类。

实验：

注：绿色表示进行了pre-training

性能的提升还是比较明显的。

[AAAI 2020 Workshop] (GT) A Generalization of Transformer Networks to Graphs

主要提出使用Laplacian eigenvector作为PE，比GraphBERT中使用的PE好

但是该模型的效果在self-attention只关注neighbors的时候会更好，与其说是graph transformer，不如说是带有PE的GAT。Sparse graph指的是self-attention只计算邻居节点，full graph是指self-attention会考虑图中所有节点。

[Arxiv 2021] GraphiT: Encoding Graph Structure in Transformers

该工作表明，将结构和位置信息合并到transformer中，能够优于现有的经典GNN。

GraphiT：（1）利用基于图上的核函数的相对位置编码来影响attention scores，（2）并编码出local sub-structures进行利用。实现发现，无论将这种方法单独使用，还是结合起来使用都取得了不错的效果。

(i) leveraging relative positional encoding strategies in self-attention scores based on positive definite kernels on graphs, and (ii) enumerating and encoding local sub-structures such as paths of short length

之前GT发现self-attention在只关注neighboring nodes的时候会取得比较好的效果，但是在关注到所有节点的时候，性能就不行。这篇论文发现transformer with global communication同样可以达到不错的效果。

因此，GraphiT通过一些策略将local graph structure编码进模型中，（1）基于正定核的注意力得分加权的相对位置编码策略（2）通过利用graph convolution kernel networks (GCKN)将small sub-structure（e.g.，paths或者subtree patterns）编码出来作为transformer的输入。

Transformer Architectures

Encoding Node Positions

Relative Position Encoding Strategies by Using Kernels on Graphs

Encoding Topological Structures

Graph convolutional kernel networks (GCKN)

实验结果

[NIPS 2021] (GraphTrans) Representing Long-Range Context for Graph Neural Networks with Global Attention

该论文提出了GraphTrans，在标准GNN层之上添加Transformer。并提出了一种新的readout机制（其实就是NLP中的[CLS] token）。对于图而言，针对target node的聚合最好是permutation-invariant,但是加上PE的transformer可能就没法实现这个了，因此不使用PE在图上是比较自然的。

可解释性观察

[CLS]token是18，可以发现它和其他node交互很频繁。它也许能抽取到更general的信息。

虽然这篇论文方法很简单，但做了大量的实验，效果也不错。

NCI biological datasets

OpenGraphBenchmark Molpcba dataset

OpenGraphBenchmark Code2 dataset

[NIPS 2021] (SAN) Rethinking Graph Transformers with Spectral Attention

这篇论文使用learnable PE，对为什么laplacian PE比较有效进行了比较好的说明。

[NIPS 2021] (Graphormer) Do Transformers Really Perform Bad for Graph Representation？

原作者自己进行了解读（https://www.msra.cn/zh-cn/news/features/ogb-lsc）：

核心点在于利用结构信息对attention score进行修正，这样比较好地利用上了图的结构信息。

[ICML 2022] (SAT) Structure-Aware Transformer for Graph Representation Learning

这篇论文和GraphTrans比较类似。也是先通过GNN得到新的节点表征，然后再输入到GT中。只是这篇论文对抽取结构信息的方式进行了更抽象化的定义（但是出于便利性，还是使用了GNN）。还有一点不同就是这篇论文还使用了PE（RWPE）。

在这篇论文中，作者展示了使用位置编码的Transformer生成的节点表示不一定捕获节点之间的结构相似性。为了解决这个问题，Chen et al. 提出了一种structure-aware transformer，这是一种建立在新的self-attention机制上的transformer。这种新的self-attention在计算attention之前会抽取子图的表征（rooted at each node），这样融合进了结构信息。作者提出了若干种可以自动生成subgraph representation的方法，从理论上证明这些表征至少和subgraph representations表现力一样。

该structure-aware框架能够利用已有的GNN去抽取subgraph representation，从实验上证明了模型的性能提升和GNN有较大的关系。仅对Transformer使用绝对位置编码会表现出过于宽松的结构归纳偏差，这不能保证两个节点具有相似的局部结构的节点生成相似的节点表示。

[NIPS 2022 Under Review] (GraphGPS) Recipe for a General, Powerful, Scalable Graph Transformer

在这篇论文中，作者对之前使用的PE进行了细致的归类（local, global or relative, 详见下方表格）。此外，该论文还提出了构建General, Powerful, Scalable Graph Transformer的要素有三：

positional/structural encoding,
local message-passing mechanism,
global attention mechanism。

针对这三要素，作者设计了一种新的graph transformer。

针对layer的设计，该论文采用GPSlayer = a hybrid MPNN+Transformer layer。

该设计与GraphTrans的不同在于，GraphTrans在输入到Transformer之前先输入到一个包含若干层的MPNNs中，这可能会有over-smoothing，over-squashing以及low expressivity against the WL test的问题，也就是说这些层可能无法在早期保存一些信息，输入到transfomer的信息就会有缺失。GPS的设计是每一层都是一层的MPNN+transformer layer，然后反复堆叠L层。

具体计算如下：

利用Linear transformer，GPS可以将时间复杂度降到。

实验结果

使用不同的Transformer，MPNN：可以发现不使用MPNN掉点很多，使用Transformer可以带来性能提升。

使用不同的PE/SE: 在低计算成本下，使用RWSE效果最佳。如果不介意计算开销可以使用效果更好的。

Benchmarking GPS

Benchmarking GNNs

Open Graph Benchmark

OGB-LSC PCQM4Mv2

方法汇总

注：这篇文章主要汇总的是同质图上的graph transformers，目前也有一些异质图上graph transformers的工作，感兴趣的读者自行查阅哈。

图上不同的transformers的主要区别在于（1）如何设计PE，（2）如何利用结构信息（结合GNN或者利用结构信息去修正attention score, etc）。
现有的方法基本都针对small graphs（最多几百个节点），Graph-BERT虽然针对节点分类任务，但是首先会通过sampling得到子图，这会损害性能（比GAT多了很多参数，但性能是差不多的），能否设计一种针对大图的transformer还是一个比较难的问题。

代码参考

GRAPH-BERT: Only Attention is Needed for Learning Graph Representations (https://github.com/jwzhanggy/Graph-Bert)
(GROVER) Self-Supervised Graph Transformer on Large-Scale Molecular Data (https://github.com/tencent-ailab/grover)
(GT) A Generalization of Transformer Networks to Graphs (https://github.com/graphdeeplearning/graphtransformer)
GraphiT: Encoding Graph Structure in Transformers [Code is unavailable]
(GraphTrans) Representing Long-Range Context for Graph Neural Networks with Global Attention (https://github.com/ucbrise/graphtrans)
(SAN) Rethinking Graph Transformers with Spectral Attention [Code is unavailable]
(Graphormer) Do Transformers Really Perform Bad for Graph Representation？(https://github.com/microsoft/Graphormer)
(SAT) Structure-Aware Transformer for Graph Representation Learning [Code is unavailable]
(GraphGPS) Recipe for a General, Powerful, Scalable Graph Transformer(https://github.com/rampasek/GraphGPS)

其他资料

Graph Transformer综述（https://arxiv.org/abs/2202.08455）；Code（https://github.com/qwerfdsaplking/Graph-Trans）
Tutorial: A Bird’s-Eye Tutorial of Graph Attention Architectures (https://arxiv.org/pdf/2206.02849.pdf)
Dataset: Long Range Graph Benchmark (https://arxiv.org/pdf/2206.08164.pdf)；Code（https://github.com/vijaydwivedi75/lrgb）

简介：GNN一般只能捕获k-hop的邻居，而可能无法捕获长距离依赖信息， Transformer可以解决这一问题。该benmark共包含五个数据集（PascalVOC-SP, COCO-SP, PCQM-Contact, Peptides-func and Peptides-struct），需要模型能捕获长距离依赖才能取得比较好的效果，该数据集主要用来验证模型捕获long range interactions的能力。

还有一些同质图上Graph Transformers的工作，感兴趣的同学自行阅读：

[KDD 2022] Global Self-Attention as a Replacement for Graph Convolution (https://arxiv.org/pdf/2108.03348.pdf)
[ICOMV 2022] Experimental analysis of position embedding in graph transformer networks (https://www.spiedigitallibrary.org/conference-proceedings-of-spie/12173/121731O/Experimental-analysis-of-position-embedding-in-graph-transformer-networks/10.1117/12.2634427.short)
[ICLR Workshop MLDD] GRPE: Relative Positional Encoding for Graph Transformer (https://arxiv.org/abs/2201.12787)；[Code] (https://github.com/lenscloth/GRPE)
[Arxiv 2022,05] Your Transformer May Not be as Powerful as You Expect (https://arxiv.org/pdf/2205.13401.pdf)；[Code] (https://github.com/lenscloth/GRPE)
[Arxiv 2022,06] NAGphormer: Neighborhood Aggregation Graph Transformer for Node Classification in Large Graphs (https://arxiv.org/abs/2206.04910)

本文仅做学术分享，如有侵权，请联系删文。