在機器學習中,有些數據不僅包含樣本本身的特征,還包含樣本之間的關系結構。這種數據通常稱為圖數據(graph data)。
與普通數據集不同,圖數據不僅包含節點的特征信息,還包含節點之間的連接關系。因此,從結構上看,一個典型的圖數據集通常包括以下幾部分:
? 節點特征矩陣(node feature matrix)
? 鄰接結構(adjacency structure)
? 節點標簽(node labels,可選)
? 特征名稱(feature names,可選)
? 數據說明(dataset description,可選)
其中,節點特征描述每個節點的屬性,而鄰接結構描述節點之間的連接關系。
下面分別介紹這些概念,并使用一個簡單示例進行說明。
一、節點特征矩陣
1、基本概念
在圖數據中,每個節點通常具有一組特征(feature)。
如果一個圖中包含 n 個節點,每個節點包含 m 個特征,這些特征就可以組成一個矩陣:
]其中:
? 每一行表示一個節點
? 每一列表示一個特征
矩陣維度為:
(n_nodes, n_features)即:
(節點數量, 特征數量)節點特征矩陣通常記為 X。
在實際應用中,節點特征可能來自:
? 用戶屬性(社交網絡)
? 文檔內容(引用網絡)
? 分子結構特征(化學圖)
? 網頁內容(網頁圖)
2、簡單示例
假設一個社交網絡中包含 3 個用戶,每個用戶有兩個屬性:
? 年齡
? 活躍度
節點特征矩陣可以表示為:
]矩陣形狀 (3, 2) 表示節點數量為 3 個(行),而每個節點有 2 個特征。
二、鄰接結構
1、基本概念
圖數據與普通數據的一個重要區別是:節點之間存在連接關系(edge)。這種連接關系需要用某種結構來表示,通常稱為鄰接結構(adjacency structure)。
最常見的表示方式是鄰接矩陣(adjacency matrix)。
鄰接矩陣通常記為 A。
如果一個圖中包含 n 個節點,那么鄰接矩陣的維度為:
(n_nodes, n_nodes)即:
(節點數量, 節點數量)矩陣中的每個元素 A[i, j] 表示節點 i 與 節點 j 之間是否存在連接關系。
例如:
]其中:
0 表示兩個節點之間沒有連接因此:
A[0,1] = 1表示節點 0 與 節點 1 之間存在連接。
如果:
A[i,j] = A[j,i]則表示這是一個無向圖(undirected graph)。
2、簡單示例
假設一個社交網絡中有 3 個用戶:
用戶3用戶之間的關系為:
用戶2 ? 用戶3如果按照節點編號表示:
2 → 用戶3則鄰接矩陣為:
]矩陣中每個元素的含義如下:
A[1,2] = 1 → 用戶2 與 用戶3 相連而:
A[0,2] = 0表示用戶1 與 用戶3 之間沒有直接連接。
3、其他常見表示方式
除了鄰接矩陣之外,圖結構還可以使用其他方式表示,例如:
(1)邊列表(edge list)
(1,2)每一行表示一條邊。
(2)鄰接表(adjacency list)
2 : [1]表示每個節點與哪些節點相連。
這種結構在節點數量很多時通常更加節省存儲空間。
三、節點標簽
1、基本概念
在一些圖學習任務中,每個節點可能具有一個標簽(label)。
例如:
? 用戶類型
? 文檔類別
? 分子性質
標簽數組通常記為 y,其結構通常為:
(n_nodes,)即,每個節點對應一個標簽。
需要注意的是,在一些任務中圖數據也可能沒有標簽,例如:
? 圖聚類
? 鏈接預測
2、簡單示例
假設社交網絡中的用戶類型為:
學生可以編碼為:
y = [0,1,0]其中:
1 → 教師四、特征名稱
1、基本概念
節點特征矩陣中的每一列通常表示一個特征。為了說明這些特征的含義,數據集有時會提供特征名稱(feature names)。其結構通常是一個字符串列表:
['age', 'activity']特征名稱用于解釋每一列數據的實際含義。
2、簡單示例
在前面的社交網絡例子中:
data[:,1] → activity這些名稱可以幫助理解數據含義。
五、數據說明
1、基本概念
很多圖數據集還會提供背景說明信息,例如:
? 數據來源
? 節點數量
? 邊數量
? 數據采集方式
這些信息有助于理解數據背景。
2、簡單示例
例如:
邊數量:50000這些說明通常會記錄在數據集說明文檔中。
六、圖數據集結構關系
一個典型的圖數據集可以表示為:
└── 數據說明這種結構同時包含:
? 節點屬性信息
? 節點之間的關系結構
因此圖數據能夠表達復雜的關系網絡。
小結
圖數據集不僅包含節點的特征信息,還包含節點之間的連接關系。一個典型的圖數據集通常由節點特征矩陣、鄰接結構以及可選的節點標簽組成,其中鄰接結構描述節點之間的連接關系。通過這些信息,圖學習算法可以同時利用節點屬性和關系結構,從而完成節點分類、鏈接預測和圖分類等任務。
![]()
“點贊有美意,贊賞是鼓勵”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.