123,123,123

圖神經(jīng)網(wǎng)絡(luò)入門，圖神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)

2021-12-01 16:58

目錄圖神經(jīng)網(wǎng)絡(luò)背后的動機(jī)GNN 算法GNN 在 Karate 網(wǎng)絡(luò)上的實(shí)現(xiàn)GNN 的應(yīng)用GNN 的挑戰(zhàn)GNN 研究論文圖神經(jīng)網(wǎng)絡(luò)背后的動機(jī)由于圖形能夠以可以客觀分析的方式表示現(xiàn)實(shí)世界，因此如今它們受到了很多關(guān)注。圖可用于表示許多現(xiàn)實(shí)世界的數(shù)據(jù)集，如社交網(wǎng)絡(luò)、分子結(jié)構(gòu)、地圖、網(wǎng)絡(luò)鏈接數(shù)據(jù)、自然科學(xué)、蛋白質(zhì)－蛋白質(zhì)相互作用網(wǎng)絡(luò)、知識圖等。此外，非結(jié)構(gòu)化數(shù)據(jù)，如圖像文本可以以圖形的形式建模。圖是對一組對象（節(jié)點(diǎn)）及其關(guān)系（邊）進(jìn)行建模的數(shù)據(jù)結(jié)構(gòu)。圖分析作為一種獨(dú)特的機(jī)器學(xué)習(xí)非歐數(shù)據(jù)結(jié)構(gòu)，側(cè)重于節(jié)點(diǎn)分類、圖分類、鏈接預(yù)測、圖聚類和圖可視化等任務(wù)。圖神經(jīng)網(wǎng)絡(luò) （GNN）是基于深度學(xué)習(xí)的方法，可在圖域上運(yùn)行。由于其在涉及非歐空間的現(xiàn)實(shí)世界問題中的良好表現(xiàn)，GNN 已成為近來廣泛應(yīng)用的圖分析方法。

圖神經(jīng)網(wǎng)絡(luò)算法一個節(jié)點(diǎn)可以用它的特征和圖中的相鄰節(jié)點(diǎn)來表示。GNN 的目標(biāo)是學(xué)習(xí)一個狀態(tài)嵌入，它對每個節(jié)點(diǎn)的鄰域信息進(jìn)行編碼。狀態(tài)嵌入用于產(chǎn)生輸出，例如預(yù)測節(jié)點(diǎn)標(biāo)簽的分布。GNNs 是信息擴(kuò)散機(jī)制和神經(jīng)網(wǎng)絡(luò)的結(jié)合，代表了一組轉(zhuǎn)換函數(shù)和一組輸出函數(shù)。信息擴(kuò)散機(jī)制由節(jié)點(diǎn)表示，節(jié)點(diǎn)在其中更新其狀態(tài)，并通過將“消息”傳遞給其相鄰節(jié)點(diǎn)來交換信息，直到它們達(dá)到穩(wěn)定的平衡。轉(zhuǎn)換函數(shù)以每個節(jié)點(diǎn)的特征、每個節(jié)點(diǎn)的邊緣特征、相鄰節(jié)點(diǎn)的狀態(tài)和相鄰節(jié)點(diǎn)的特征作為輸入，輸出是節(jié)點(diǎn)的新狀態(tài)。

圖 2

空手道俱樂部社交網(wǎng)絡(luò)上的圖神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)

在本節(jié)中，讓我們看看如何將 GNN 應(yīng)用于空手道網(wǎng)絡(luò)，這是一種簡單的圖網(wǎng)絡(luò)。

1．空手道網(wǎng)絡(luò)資料背景：兩個 34×34 矩陣ZACHE 對稱，二進(jìn)制ZACHC 對稱，有值。

這些數(shù)據(jù)是 Wayne Zachary 從大學(xué)空手道俱樂部成員那里收集的。ZACHE 矩陣表示俱樂部成員之間是否存在聯(lián)系；ZACHC 矩陣表示關(guān)聯(lián)的相對強(qiáng)度（發(fā)生互動的俱樂部內(nèi)外情況的數(shù)量）。

Zachary （1977）利用這些數(shù)據(jù)和網(wǎng)絡(luò)沖突解決的信息流模型來解釋這個群體在成員之間發(fā)生糾紛后的分裂。

2．使用的數(shù)據(jù)

此數(shù)據(jù)可以轉(zhuǎn)換為 2 個 CSV 文件：

node．csv 存儲每個俱樂部成員及其屬性。34 名俱樂部成員用“Id”從 0 到 33 表示。他們所在的俱樂部 – Mr Hi（Node id 0）或 Mr Officer（Node id 1）用“Club”欄表示。

edge．csv 存儲兩個俱樂部成員之間的成對交互。權(quán)重被賦予由“權(quán)重”特征表示的節(jié)點(diǎn) id 之間的這些交互。

Nodes．csv – Self Project

Edges．csv – Self Project

3．使用 DGL 庫進(jìn)行圖形表示：然后我們構(gòu)建一個圖，其中每個節(jié)點(diǎn)都是俱樂部成員，每條邊代表他們的互動。在 DGL 中，節(jié)點(diǎn)是從零開始的連續(xù)整數(shù)。因此，在準(zhǔn)備數(shù)據(jù)時，重要的是重新標(biāo)記或重新洗牌行順序，以便第一行對應(yīng)于第一個節(jié)點(diǎn)，依此類推。在本例中，我們已經(jīng)按照正確的順序準(zhǔn)備了數(shù)據(jù)，因此我們可以通過edges．csv 表中的“Src”和“Dst”列創(chuàng)建圖形。加載 DGL 圖的代碼：import dgl

src ＝ edges＿data［＇Src＇］．to＿numpy（）

dst ＝ edges＿data［＇Dst＇］．to＿numpy（）

＃ Create a DGL graph from a pair of numpy arrays

g ＝ dgl．graph（（src， dst））

出于可視化目的，我們可以將 DGL 圖轉(zhuǎn)換為網(wǎng)絡(luò)圖：import networkx as nx

＃ Since the actual graph is undirected， we convert it for visualization purpose．

nx＿g ＝ g．to＿networkx（）．to＿undirected（）

＃ Kamada－Kawaii layout usually looks pretty for arbitrary graphs

pos ＝ nx．kamada＿kawai＿layout（nx＿g）

nx．draw（nx＿g，pos， with＿labels＝True）

DGL 圖網(wǎng)絡(luò)

4．空手道網(wǎng)絡(luò)上的 GNN 模型訓(xùn)練：將俱樂部特征添加到 DGL 圖中：＃ The ＂Club＂ column represents which

community does each node belong to．

＃ The values are of string type， so we must convert it to either categorical

＃ integer values or one－h(huán)ot encoding．

club ＝ nodes＿data［＇Club＇］．to＿list（）

＃ Convert to categorical integer values with 0 for ＇Mr． Hi＇， 1 for ＇Officer＇．

club ＝ torch．tensor（［c ＝＝＇Officer＇ for c in club］）．long（）

＃ We can also convert it to one－h(huán)ot encoding．

club＿onehot ＝ F．one＿h(yuǎn)ot（club）

print（club＿onehot）

＃ Use ｀g．ndata｀ like a normal dictionary

g．ndata．update（｛＇club＇： club，＇club＿onehot＇： club＿onehot｝）

將邊緣特征更新為 DGL 圖：＃ Get edge features from the DataFrame and feed it to graph．

edge＿weight ＝ torch．tensor（edges＿data［＇Weight＇］．to＿numpy（））

＃ Similarly， use ｀g．edata｀ for getting／setting edge features．

g．edata［＇weight＇］＝ edge＿weight

更新節(jié)點(diǎn)嵌入：node＿embed ＝ nn．Embedding（g．number＿of＿nodes（）， 5）＃ Every node has an embedding of size 5．

inputs ＝ node＿embed．weight ＃ Use the embedding weight as the node features．

nn．init．xavier＿uniform＿（inputs）

更新 2 個組長的標(biāo)簽功能－ 0 和 33 ids 為：labels ＝ g．ndata［＇club＇］

labeled＿nodes ＝［0， 33］

使用 GraphSage 模型將 GNN 實(shí)現(xiàn)為：from dgl．nn import SAGEConv

＃ build a two－layer GraphSAGE model

class GraphSAGE（nn．Module）：

def ＿＿init＿＿（self， in＿feats， h＿feats， num＿classes）：
super（GraphSAGE， self）．＿＿init＿＿（）
self．conv1 ＝ SAGEConv（in＿feats， h＿feats，＇mean＇）
self．conv2 ＝ SAGEConv（h＿feats， num＿classes，＇mean＇）

def forward（self， g， in＿feat）：
h ＝ self．conv1（g， in＿feat）
h ＝ F．relu（h）
h ＝ self．conv2（g， h）
return h

＃ Create the model with given dimensions

＃ input layer dimension： 5， node embeddings

＃ hidden layer dimension： 16

＃ output layer dimension： 2， the two classes， 0 and 1

net ＝ GraphSAGE（5， 16， 2）

設(shè)置損失和優(yōu)化器并將模型訓(xùn)練為：＃ in this case， loss will in training loop

optimizer ＝ torch．optim．Adam（itertools．chain（net．parameters（）， node＿embed．parameters（））， lr＝0．01）

all＿logits ＝［］

for e in range（100）：

＃ forward

logits ＝ net（g， inputs）

＃ compute loss

logp ＝ F．log＿softmax（logits， 1）

loss ＝ F．nll＿loss（logp［labeled＿nodes］， labels［labeled＿nodes］）

＃ backward

optimizer．zero＿grad（）

loss．backward（）

optimizer．step（）

all＿logits．a(chǎn)ppend（logits．detach（））

if e ％ 5 ＝＝ 0：
print（＇In epoch ｛｝， loss：｛｝＇．format（e， loss））

輸出：

獲得結(jié)果為：pred ＝ torch．a(chǎn)rgmax（logits， axis＝1）

print（＇Accuracy＇，（pred ＝＝ labels）．sum（）．item（）／ len（pred））

輸出：

圖神經(jīng)網(wǎng)絡(luò)的應(yīng)用GNN 能夠解決的問題：節(jié)點(diǎn)分類：手頭的任務(wù)是通過利用其鄰居的標(biāo)簽來確定節(jié)點(diǎn)的標(biāo)簽。通常，這種類型的問題是以半監(jiān)督的方式訓(xùn)練的，只有一部分圖被標(biāo)記。圖分類：該過程是將整個圖分為不同的類別。

示例：在生物信息學(xué)中確定蛋白質(zhì)是否為酶，在 NLP或社交網(wǎng)絡(luò)分析中對文檔進(jìn)行分類。圖形可視化：它處理圖形的可視化表示，揭示數(shù)據(jù)中可能存在的結(jié)構(gòu)和異常，并幫助用戶理解圖形。正如本博客前面提到的，一些可視化圖形的方法是網(wǎng)絡(luò)和 dgl。鏈接預(yù)測：該算法用于理解圖中實(shí)體之間的關(guān)系，并嘗試預(yù)測兩個實(shí)體之間是否存在連接。它還可以用于推薦系統(tǒng)和預(yù)測犯罪組織。

它在社交網(wǎng)絡(luò)中用于推斷社交互動或向用戶推薦潛在朋友。圖聚類：這意味著以圖的形式對數(shù)據(jù)進(jìn)行聚類。有兩種不同形式的聚類在圖數(shù)據(jù)頂點(diǎn)和圖聚類上執(zhí)行。頂點(diǎn)聚類是指根據(jù)邊權(quán)重或邊距離將圖的節(jié)點(diǎn)聚類成一組密集連接的區(qū)域。圖聚類是將圖作為待聚類的對象，根據(jù)聚類特征的相似性對這些對象進(jìn)行聚類。

圖神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)

1．動態(tài)特性——由于 GNN 是動態(tài)圖，處理具有動態(tài)結(jié)構(gòu)的圖可能是一個挑戰(zhàn)。

2．可擴(kuò)展性——在社交網(wǎng)絡(luò)或推薦系統(tǒng)中應(yīng)用嵌入方法對于包括 GNN 在內(nèi)的所有圖嵌入算法來說在計算上可能很復(fù)雜。

3．非結(jié)構(gòu)化數(shù)據(jù)——GNNs 也難以應(yīng)用于非結(jié)構(gòu)化場景。為 GNN 尋找最佳圖生成方法是一項具有挑戰(zhàn)性的任務(wù)。

圖神經(jīng)網(wǎng)絡(luò)研究論文列出了一些論文，以深入了解 GNN 及其在某些應(yīng)用領(lǐng)域中正在進(jìn)行的工作——A Comprehensive Survey on Graph Neural Networks． arxiv 2019． https：／／arxiv．org／pdf／1901．00596．pdfZonghan Wu， Shirui Pan， Fengwen Chen， Guodong Long， Chengqi Zhang， Philip S． Yu．Graph Neural Networks： A Review of Methods and Applications． AI Open 2020． https：／／doi．org／10．1016／j．a(chǎn)iopen．2021．01．001Jie Zhou， Ganqu Cui， Zhengyan Zhang， Cheng Yang， Zhiyuan Liu， Maosong Sun．Supervised Neural Networks for the Classification of Structures． IEEE TNN 1997． https：／／ieeexplore．ieee．org／abstract／document／572108Alessandro Sperduti and Antonina Starita．A new model for learning in graph domains． IJCNN 2005． https：／／www．researchgate．net／profile／Franco＿Scarselli／publication／4202380＿A＿new＿model＿for＿earning＿in＿raph＿domains／links／0c9605188cd580504f000000．pdfMarco Gori， Gabriele Monfardini， Franco Scarselli．Deep Learning on Graphs： A Survey． arxiv 2018．Ziwei Zhang， Peng Cui， Wenwu Zhu．