无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

機器學習:常見的數據集結構

0
分享至

在機器學習中,數據的組織方式直接影響模型的訓練方式與算法設計。

不同類型的學習任務,對應的數據結構也有所不同。例如,監督學習通常需要標簽數據,而無監督學習則只依賴數據本身的結構;時間序列數據強調時間順序,而圖數據則強調對象之間的關系結構。

在實際應用中,機器學習數據通常以 NumPy 數組、矩陣或結構化對象的形式組織。在 Scikit-Learn 中,許多示例數據集通過 sklearn.datasets 模塊提供,這些數據集不僅用于算法示例,也體現了常見的數據組織方式。

從機器學習任務的角度看,常見的數據集結構主要包括以下幾類:

? 監督學習數據集

? 無監督學習數據集

? 半監督學習數據集

? 自監督學習數據集

? 時間序列數據集

? 序列數據集

? 圖數據集

? 多模態數據集

? 強化學習中的經驗數據

監督學習是機器學習中最常見的學習方式。其核心特點是:每個樣本都對應一個已知標簽。

一個典型的監督學習數據集通常包括:

? 特征矩陣(feature matrix)

? 標簽數組(target array)

特征矩陣通常記為:

X

標簽數組通常記為:

y

特征矩陣的結構為:

(n_samples, n_features)

標簽數組的結構為:

(n_samples,)

訓練模型時的常見形式為:

model.fit(X, y)

下面以 Scikit-Learn 提供的鳶尾花數據集(Iris dataset)為例觀察其結構:

print(iris.target.shape)

示例輸出:

(150,)

? iris.data:特征矩陣

? iris.target:標簽數組

該數據集常用于分類算法示例。

在無監督學習中,數據通常沒有標簽信息。算法需要根據數據本身的結構發現潛在模式。

因此,一個典型的無監督學習數據集通常只包含:

? 特征矩陣

表示為:

X

其結構為:

(n_samples, n_features)

模型訓練通常為:

model.fit(X)

常見任務包括:

? 聚類(clustering)

? 降維(dimensionality reduction)

? 異常檢測(anomaly detection)

示例:

Scikit-Learn 提供的 Digits 數據集本身包含標簽,但在無監督學習任務中,可以只使用其中的特征矩陣 digits.data。

print(digits.data.shape)

輸出示例:

(1797, 64)

? 每個樣本是一張 8×8 手寫數字圖像

? 圖像被展開為 64 維特征向量

在無監督學習任務中,可以只使用:

X = digits.data

例如用于聚類或降維分析。

半監督學習介于監督學習與無監督學習之間:只有部分樣本具有標簽。

典型結構包括:

y

其中:

? 部分樣本具有標簽

? 在一些實現中,未標注樣本常用 -1 作為占位標記;但這并不是唯一方式,具體表示形式取決于所使用的庫和算法實現

例如:

y = [0, 1, 2, -1, -1, -1]

其中:

-1

表示該樣本沒有標簽。

示例:Digits 數據集的半監督應用

model.fit(X, y)

Scikit-Learn 中常見半監督算法包括:

? LabelPropagation

? LabelSpreading

自監督學習(self-supervised learning)是一種不依賴人工標簽的學習方式。模型通過設計預訓練任務(pretext task),從數據本身構造學習目標。

從訓練任務的角度看,自監督學習通常涉及:

? 原始特征數據

? 自動生成的訓練目標

表示為:

y_generated

其中:

X : (n_samples, n_features)

自動生成的目標數據通常由數據本身構造,例如:

? 重建輸入數據

? 預測被遮擋的部分

? 判斷兩個樣本是否相似

例如,可以仍以 Scikit-Learn 提供的 Digits 手寫數字數據集作為原始輸入數據:

print(digits.data.shape)

輸出示例:

(1797, 64)

? 每個樣本是一張 8×8 手寫數字圖像

? 圖像被展開為 64 維特征向量

在自監督學習任務中,可以直接使用:

X = digits.data

自監督學習通常直接使用未標注原始數據,監督信號由訓練過程自動構造。因此,從數據組織角度看,它常常仍然以原始樣本集合 X 為基礎,只是訓練目標不是人工給出的標簽,而是由任務機制動態生成。

時間序列數據的核心特點是:數據具有時間順序。

一個典型的時間序列數據集通常包括:

? 時間索引

? 特征矩陣

? 目標變量(可選)

例如:

2026-01-03  13

在機器學習中,時間序列數據通常會通過滑動窗口(sliding window) 轉換為監督學習形式:

y = x4

這樣就可以使用普通機器學習模型進行預測。

時間序列數據廣泛應用于:

? 股票預測

? 銷售預測

? 傳感器監測

序列數據由一組按順序排列的元素組成,例如:

["I", "love", "machine", "learning"]

在機器學習中,序列通常需要轉換為數值表示,例如:

[1, 2, 3, 4]

若經過截斷、填充或編碼后,序列數據常可表示為:

y : (n_sequences,)   # 可選

序列數據常見于:

? 文本數據

? 語音信號

? 用戶行為序列

從廣義上說,時間序列也屬于序列數據;但由于其順序具有明確的時間含義,并常涉及滯后、趨勢、季節性等問題,因此通常單獨作為一類討論。

示例:20 Newsgroups 數據集

Scikit-Learn 提供 20 Newsgroups 文本數據集:

print(len(data.data))

該數據集包含:

? 文本序列

? 分類標簽

通常需要使用 TF-IDF 或 詞袋模型進行特征轉換。

圖數據用于描述對象之間的關系結構。

一個典型的圖數據集通常包括:

? 節點特征矩陣

? 鄰接結構

? 節點標簽(可選)

常見表示方式:

y → 節點標簽

其中:

A : (n_nodes, n_nodes)

圖數據常見任務包括:

? 節點分類

? 鏈接預測

? 圖分類

雖然 Scikit-Learn 不是專門的圖學習框架,但可以構建樣本相似度圖:

A = kneighbors_graph(iris.data, 5)

這里 A 表示樣本之間的鄰接關系。

多模態數據集同時包含多種不同類型的數據來源。

例如:

? 圖像

? 文本

? 音頻

? 表格數據

一個樣本可能同時包含多種模態信息,例如:

圖像 + 文本描述

數據結構通常表示為多個特征矩陣:

X_text

這些矩陣通常具有相同的樣本數量:

(n_samples, ...)

關鍵在于不同模態必須按樣本一一對應,否則無法進行聯合學習。

多模態學習廣泛應用于:

? 圖像描述

? 視頻理解

? 跨模態檢索

強化學習的數據來自智能體與環境的交互過程。

每一次交互通常記錄為:

(state, action, reward, next_state)

即:

(s, a, r, s')

其中:

? state:當前環境狀態

? action:執行的動作

? reward:獲得的獎勵

? next_state:下一狀態

這些數據通常存儲在經驗集合中,例如經驗回放緩沖區(Replay Buffer)。

強化學習算法通過不斷積累這些交互數據來學習最優策略。

小結

在機器學習中,不同任務類型對應不同的數據集結構。監督學習數據集通常由特征矩陣和標簽數組組成,而無監督學習數據集通常只包含特征數據。除此之外,還存在半監督學習、時間序列、序列數據、圖數據、多模態數據以及強化學習交互數據等多種形式。理解這些常見的數據組織方式,有助于根據任務特點正確構建數據,并選擇合適的機器學習方法。


點贊有美意,贊賞是鼓勵

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大規模清倉!北京本土家居品牌閉店倒計時

大規模清倉!北京本土家居品牌閉店倒計時

中國商報
2026-06-12 19:44:05
確認!巴塞羅那啟動對弗洛倫蒂諾法律行動

確認!巴塞羅那啟動對弗洛倫蒂諾法律行動

日常碎碎念啊
2026-06-13 00:18:42
杰拉德曝伊斯坦布爾奇跡更衣室真相

杰拉德曝伊斯坦布爾奇跡更衣室真相

體壇周報
2026-06-12 21:13:42
網傳南通“橋掉下來了”消息不實 當地通報:系裝載混凝土預制箱梁的半掛車發生事故

網傳南通“橋掉下來了”消息不實 當地通報:系裝載混凝土預制箱梁的半掛車發生事故

紅星新聞
2026-06-12 20:42:09
辭職也難逃追責!西安女教師配合外籍博主博流量,師德底線失守

辭職也難逃追責!西安女教師配合外籍博主博流量,師德底線失守

放開他讓wo來
2026-06-12 10:48:34
告訴你一個殘酷的真相:父母存的錢,存的其實是孩子的選擇權

告訴你一個殘酷的真相:父母存的錢,存的其實是孩子的選擇權

大熊歡樂坊
2026-06-01 06:24:25
曝格林愿降薪讓步助勇士追詹姆斯

曝格林愿降薪讓步助勇士追詹姆斯

體壇周報
2026-06-13 03:26:12
忠心員工捐髓救老板一命,老板康復后卻將她辭退,報應來得快

忠心員工捐髓救老板一命,老板康復后卻將她辭退,報應來得快

懸案解密檔案
2025-05-14 14:16:08
28歲巔峰退出國家隊?趙繼偉克星宣布退役:男籃反倒成最大受益者

28歲巔峰退出國家隊?趙繼偉克星宣布退役:男籃反倒成最大受益者

籃球快餐車
2026-06-12 05:36:36
世界首富押注的火箭發動機:折騰了60年,終于變成了流水線產品

世界首富押注的火箭發動機:折騰了60年,終于變成了流水線產品

平流層散步者
2026-05-27 08:04:47
寶馬也要出“大G”?寶馬全新硬派越野車假想圖曝光,對標奔馳G級

寶馬也要出“大G”?寶馬全新硬派越野車假想圖曝光,對標奔馳G級

小怪吃美食
2026-06-13 02:55:54
外資控制蒙古銅礦,340萬人淪為性旅游后花園

外資控制蒙古銅礦,340萬人淪為性旅游后花園

清歡百味
2026-06-11 18:45:10
“幾十年的血沒清洗過,您覺得干凈嗎?”

“幾十年的血沒清洗過,您覺得干凈嗎?”

中國新聞周刊
2026-06-11 07:22:08
高考719分奪得全省第一,如今在清華王牌專業讀大一,成功靠2個字

高考719分奪得全省第一,如今在清華王牌專業讀大一,成功靠2個字

星娛叨叨社
2026-06-09 14:55:26
值得珍藏:AI產業鏈+光存電芯+玻璃基板+貴金屬+光通信+能源龍頭

值得珍藏:AI產業鏈+光存電芯+玻璃基板+貴金屬+光通信+能源龍頭

粵語音樂噴泉
2026-06-11 18:32:26
否決金球先生?皇馬36小時閃簽B席,一場靜默的戰術革命!

否決金球先生?皇馬36小時閃簽B席,一場靜默的戰術革命!

落夜足球
2026-06-12 13:49:58
我們等了55年的一句話,終于正式公開了!

我們等了55年的一句話,終于正式公開了!

起喜電影
2026-06-08 10:49:23
老領導落馬前塞給我一個藍布包,叮囑我辭職回鄉躲五年才安全

老領導落馬前塞給我一個藍布包,叮囑我辭職回鄉躲五年才安全

曉艾故事匯
2025-12-12 08:10:43
賴昌星的“紅樓”有多厲害?官員坦白:享受全套服務,沒人能把持

賴昌星的“紅樓”有多厲害?官員坦白:享受全套服務,沒人能把持

流史歲月
2026-06-12 11:04:38
646億財務造假終被抓,兒子投資來源不明,實業報國六年騙局

646億財務造假終被抓,兒子投資來源不明,實業報國六年騙局

玲兒愛唱歌
2026-05-07 05:07:45
2026-06-13 04:15:00
MediaTea
MediaTea
專業的數字媒體、新媒體技術
1888文章數 80關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

旅游
藝術
手機
游戲
房產

旅游要聞

印度有錢人真多酷暑辦理旅游簽證!不是有錢任性,是熱到活不下去

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

手機要聞

vivo X Fold6再預熱:天璣9500超能版+OriginOS 6 Fold

索尼PS國區運營神了!玩梗《黑袍》:我會玩你的游戲

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

無障礙瀏覽 進入關懷版