網易首頁 > 網易號 > 正文申請入駐

ML：序列數據集的基本結構

2026-03-17 07:03:16　來源: MediaTea

湖南舉報

分享至

在機器學習中，有些數據并不是獨立的樣本集合，而是按順序排列的數據序列（sequence data）。在這種數據中，樣本之間存在明確的順序關系，前后的數據通常具有依賴性。

序列數據廣泛出現在以下領域：

? 文本數據（句子、文檔）

? 語音信號

? DNA 序列

? 用戶行為序列

從結構上看，一個典型的序列數據集通常包括以下幾部分：

? 序列數據（sequence data）

? 序列特征表示（sequence feature representation）

? 目標值或標簽（target values，可選）

? 特征名稱（feature names，可選）

? 數據說明（dataset description，可選）

下面分別介紹這些概念，并使用一個簡單的文本序列示例進行說明。

一、序列數據

1、基本概念

序列數據的基本單位是序列（sequence）。一個序列通常由一組按順序排列的元素組成。

例如，一個句子可以表示為：

["I", "love", "machine", "learning"]

這些元素通常稱為：

? token（詞或符號）

? symbol（符號）

? element（元素）

如果一個數據集中包含 n 個序列，每個序列長度最多為 m，則可以表示為：

其中：

? 每一行表示一個序列

? 每一列表示序列中的位置

在實際應用中，序列長度通常不固定，因此不同序列的長度可能不同。

不同序列長度可能不同，因此 S 更接近列表結構，而不是嚴格矩陣。

2、簡單示例

假設一個簡單的文本數據集包含三個句子：

["Data", "science"]

每一行表示一個文本序列。

3、Scikit-Learn 數據集示例

Scikit-Learn 提供了 20 Newsgroups 文本數據集，該數據集包含來自 20 個新聞組的文章文本。

print(len(news.data))

示例輸出：

news.target_names：類別名稱

在該數據集中，每一篇文章都可以看作一個文本序列。

二、序列特征表示

1、基本概念

機器學習模型通常不能直接處理文本或符號序列，因此需要將序列轉換為數值表示。

常見的方法是將每個元素編碼為整數或向量，例如：

"AI" → 3

這樣，一個序列就可以表示為：

[1, 2, 3]

如果一個數據集中有 n 個序列，每個序列長度為 m，這些序列就可以組成一個矩陣：

矩陣維度通常表示為：

(n_sequences, sequence_length)

在實際應用中，序列長度通常會通過：

? 截斷（truncation）

? 填充（padding）

進行統一處理。

在 Scikit-Learn 中，文本序列通常需要通過 CountVectorizer 或 TfidfVectorizer 等方法轉換為數值特征矩陣。

print(X.shape)

示例輸出：

(11314, 130000+)

? 每一行表示一篇文章

? 每一列表示一個詞語特征

2、簡單示例

例如：

["I", "love", "AI"]

可以轉換為：

[1, 2, 3]

如果統一序列長度為 5，則可以表示為：

[1, 2, 3, 0, 0]

其中：

0 → padding

三、目標值（標簽）

1、基本概念

在許多序列任務中，每個序列通常對應一個目標值或標簽。

例如：

? 文本分類

? 情感分析

? 語音識別

標簽數組通常記為 y，其結構通常為：

(n_sequences,)

即，每個序列對應一個標簽。

2、簡單示例

假設我們進行情感分類：

"AI is difficult" → negative

可以編碼為：

y = [1, 0]

其中：

0 → negative

3、20 Newsgroups 數據集示例

在 20 Newsgroups 數據集中，每篇文章都對應一個類別標簽：

print(news.target[:5])

示例輸出：

[7 4 4 1 14]

類別名稱可以通過：

print(news.target_names[news.target[0]])

例如：

rec.autos

因此在該數據集中：

y → 新聞組類別

四、特征名稱

在序列數據中，元素通常來自一個詞匯表（vocabulary）。

詞匯表可以看作是一種特征名稱集合：

["I", "love", "AI", "machine", "learning"]

在數值編碼之后，這些詞通常與整數 ID 對應：

3 → AI

這種映射關系有助于解釋序列數據的含義。實際編碼通常由詞匯表（vocabulary）自動分配。

五、數據說明

1、基本概念

許多序列數據集還會提供背景說明信息，例如：

? 數據來源

? 數據規模

? 詞匯表大小

? 數據采集方式

這些信息可以幫助理解數據的背景和用途。

2、示例

例如：

數據來源：社交媒體評論

樣本數量：50000

詞匯表大小：20000

這些信息通常會記錄在數據集說明文檔中。

六、序列數據集結構關系

一個典型的序列數據集可以表示為：

└── 數據說明

這種結構描述了序列元素之間的順序關系，并為模型提供可計算的數值表示。

小結

序列數據集的核心特點是樣本內部存在明確的順序結構。一個序列通常由多個按順序排列的元素組成，在機器學習中需要將這些元素轉換為數值表示，從而形成序列特征矩陣。在許多任務中，每個序列還可能對應一個標簽，用于完成分類或預測任務。理解序列數據的結構，是處理文本、語音以及行為序列等問題的重要基礎。

“點贊有美意，贊賞是鼓勵”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

NEWTON:等物理涌現到請牛頓進工具箱，Agent 驅動視頻生成新范式

機器之心Pro 2026-06-11 20:50:32
0 跟貼 0
不用向量數據庫，Agent也能會搜索：給它一個grep就夠了？

機器之心Pro 2026-06-11 17:06:46
0 跟貼 0

Kimi最強編程模型來了：Token消耗直降30%，過度思考有救了，附一手實測

智東西 2026-06-13 01:07:25
0 跟貼 0

微信AI不打算接管一切

華爾街見聞官方 2026-06-11 16:33:03
1 跟貼 1
入圍CVPR 2026最佳論文決選，ViT3突破Transformer復雜度瓶頸

機器之心Pro 2026-06-12 17:09:54
0 跟貼 0

Transformer解決計算問題？人大團隊指出上限取決于上下文管理

機器之心Pro 2026-06-12 12:58:06
0 跟貼 0

4位AI大牛對話50分鐘！編程是AI勝負手、Claude“神話”模型是自然結果、降token是正確的

智東西 2026-06-12 14:52:40
3 跟貼 3
再不用手動刷新！Excel三個日期函數讓項目時間線自動倒數

硬核玩家2哈 2026-06-13 02:15:58
0 跟貼 0

本文系虛構：一張普通照被畫上符號，越看越怪異

舊事別提 2026-06-11 05:16:33
3 跟貼 3
皇馬官方宣布穆里尼奧出任主教練

央視新聞客戶端 2026-06-12 02:39:10
2444 跟貼 2444
惡臭!上海一別墅區傳出高頻尖叫,居民不堪其擾

看看新聞Knews 2026-06-12 22:37:03
1087 跟貼 1087
剛剛，人類歷史上首位萬億美元富豪誕生！

每日經濟新聞 2026-06-12 22:32:06
1238 跟貼 1238
高鐵行李架現白色寵物蛇列車長僅用塑料袋徒手拿捏

極目新聞 2026-06-12 10:06:52
1037 跟貼 1037
微軟不敢給員工用的AI，轉頭賣給你！法務卡住最強Claude

新智元 2026-06-13 00:19:46
0 跟貼 0
美擬撤走北約歐洲防務三分之一戰機

界面新聞 2026-06-12 13:06:43
1660 跟貼 1660
497數學聯賽：2015第二試B-2 一元二次方程的整數根中參數K的問題

我服子佩 2026-06-12 17:59:15
1 跟貼 1
OpenAI、Anthropic急了？外媒曝創企轉向中國更便宜開源模型，特定場景成本能降95%

智東西 2026-06-12 23:21:20
2 跟貼 2
GuidedVLA給動作解碼器裝上可控可解釋的注意力專家

機器之心Pro 2026-06-12 19:04:46
0 跟貼 0
"中醫匠人"賣課號稱"行走的CT" 自稱學技術可掙錢改命

新京報 2026-06-12 11:56:14
1265 跟貼 1265
公開征求意見！廣州擬繼續在全市所有道路禁止機動車鳴喇叭

南方都市報 2026-06-12 19:04:34
129 跟貼 129
買了個汽車模型，居然有40邁的速度，這時候多么希望它變大！

能把人笑沒社 2026-06-12 16:03:33
1 跟貼 1
“張雪機車”獲得WSBK艾米利亞-羅馬涅站桿位賽第三名

極目新聞 2026-06-12 23:00:07
29 跟貼 29
機制大改！數值大削！盤點被迫轉型輔助的英雄！墨子曾經有多強？

榮耀張大仙 2026-06-12 15:22:26
3 跟貼 3
伊朗外交部：伊方正在審議諒解備忘錄草案

財聯社 2026-06-13 02:10:10
0 跟貼 0
“年年交1.5元一度電從來沒變過，都麻木了” ，市民紛紛吐槽廣州城中村電費加價

南方都市報 2026-06-12 08:28:28
75 跟貼 75
厄爾尼諾已正式形成預計強度將打破1950年以來紀錄！

財聯社 2026-06-12 16:50:07
84 跟貼 84
鬧心！奧迪純電SUV，提車三天“故障頻發”！上海車主7個月報修10次，結果更鬧心

新民晚報 2026-06-12 19:26:49
244 跟貼 244
魔獸世界時光服藍貼，暗牧再次調整，冰火兩重天

山西三炮 2026-06-12 19:43:39
4 跟貼 4
逆襲十欄！從陪跑到冠軍，她跑贏了所有標簽

淺夢看世界 2026-06-12 12:52:20
1 跟貼 1
5個月神話破滅！Donut Lab固態電池被實錘造假背后：從未實際生產過電池電芯，固態電池產業化仍需五到十年

每日經濟新聞 2026-06-11 16:39:10
168 跟貼 168
吉利銀河的單車依賴癥更嚴重了

界面新聞 2026-06-12 15:11:25
55 跟貼 55
小學數學易錯題：一根繩子圍長方形，求最大面積，多數栽在這一步

電動車的那些事兒 2026-06-11 07:52:29
0 跟貼 0
中國手持式激光雕刻機，隨時隨地打標簽

裝甲鏟史官 2026-06-09 11:15:16
0 跟貼 0
寶馬7系用車體驗在商場買到喜歡的機甲模型體驗后排的舒享功能

SuperStreet超級街 2026-06-09 09:15:13
0 跟貼 0
梁文鋒向左，楊植麟向右

虎嗅APP 2026-06-13 02:52:07
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
最近，武漢這家百年老店又火了！

武漢發布 2026-06-12 09:34:56
53 跟貼 53
海光信息在漢披露：國產CPU處理器性能已比肩英特爾

支點財經 2026-06-11 21:27:18
174 跟貼 174
高考，考的不僅僅是分數

環球網資訊 2026-06-12 18:45:15
153 跟貼 153
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0

手機 / 數碼

房產 / 家居

ML：序列數據集的基本結構

剛剛，人類歷史上首位萬億美元富豪誕生！

美加墨世界杯第二場比賽就現空座 英媒：尷尬

美加墨世界杯第二場比賽就現空座 英媒：尷尬

歐洲恐韓？肉德維德？

一天4個瓜，肖戰熱巴最意外

萬億美元順差背后，透露這些信號

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

夏天別總穿一身白或一身黑！試試一半彩色、一半基礎色，高級亮眼

空間微調 移形換境

英國監管機構警告：亞馬遜、eBay仍在售可能致命的假冒手機充電器

家長成了“瘋女人”，被女兒作業搞崩潰，網友：太真實

伊朗媒體：已故最高領袖葬禮推遲舉行

美加墨世界杯第二場比賽就現空座英媒：尷尬

美加墨世界杯第二場比賽就現空座英媒：尷尬

標配激光雷達/雙動力可選昊鉑S600限時售17.99萬起

空間微調移形換境