向量是數(shù)學(xué)、線性代數(shù)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)和人工智能中非常基礎(chǔ)、也非常重要的一個術(shù)語。它用來描述一個對象在多個維度上的數(shù)值表示。換句話說,向量就是把一個對象的若干特征按順序排成一組數(shù),從而便于計算、比較和建模。
如果說一個單獨(dú)的數(shù)字回答的是“某一個方面有多大”,那么向量回答的就是“這個對象在多個方面分別是什么樣子”。因此,向量常被用來表示樣本、特征、詞語、句子、圖像以及模型中的參數(shù),在人工智能中幾乎無處不在。
一、基本概念:什么是向量
向量(Vector)原本是數(shù)學(xué)中的概念,通常既可以表示大小,也可以表示方向。在人工智能和數(shù)據(jù)分析中,向量更常被理解為:按固定順序排列的一組數(shù)值,用來表示一個對象在多個維度上的狀態(tài)。
例如,下面這組數(shù):
(170, 65, 90)可以看作一個三維向量。若約定這三個位置分別表示:
身高;
體重;
考試成績;
那么這個向量就表示某個對象在這三個維度上的具體取值。
一般來說,一個 n 維向量可寫為:
其中:
? x? 表示第 1 個維度上的數(shù)值
? x? 表示第 2 個維度上的數(shù)值
? x? 表示第 n 個維度上的數(shù)值
? n 表示向量的維度個數(shù)
這個寫法的含義并不復(fù)雜:它只是把一個對象拆成若干個可量化的方面,再按順序組合起來。
從通俗角度看,向量可以理解為:用一串有順序的數(shù)字,給一個對象做“數(shù)字畫像”。
例如,一個學(xué)生可以用向量表示為:
(85, 92, 78)若約定這三個位置依次表示語文、數(shù)學(xué)、英語成績,那么這個向量就描述了這個學(xué)生在三門課程上的表現(xiàn)。
又例如,一個商品也可以表示成向量:
(價格, 銷量, 評分)只要每個位置的含義事先約定好,這組數(shù)就能成為該對象的數(shù)值表示。
需要注意的是,向量中的“順序”非常重要。
例如:(170, 65, 90) 和 (65, 170, 90)。
雖然包含的數(shù)字相同,但若位置含義不同,它們表示的對象也完全不同。
在幾何中,向量還常被看作“從原點(diǎn)指向某個點(diǎn)的箭頭”。
例如二維向量:(3, 4),可以看作從原點(diǎn) (0, 0) 指向點(diǎn) (3, 4) 的一個箭頭。
這種理解方式有助于解釋向量的長度、方向、夾角以及點(diǎn)積、歐氏距離等概念。
二、向量的重要性與常見應(yīng)用場景
1、向量的重要性
向量之所以重要,是因?yàn)槿斯ぶ悄芎蛿?shù)據(jù)分析中的很多問題,最終都需要把對象轉(zhuǎn)化為“可計算的數(shù)值形式”。而向量正是最常見、最自然的一種表示方式。
首先,向量可以把復(fù)雜對象轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)形式。
無論是學(xué)生成績、用戶畫像、商品特征,還是一張圖片、一段文本,只要能提取出若干數(shù)值特征,就可以把它們表示成向量。
其次,向量便于進(jìn)行數(shù)學(xué)運(yùn)算。
一旦對象被表示成向量,就可以進(jìn)一步計算它們之間的距離、相似度、點(diǎn)積、加權(quán)和等。這使得“比較兩個對象是否接近”“判斷兩個對象是否相似”成為可能。
再次,向量是機(jī)器學(xué)習(xí)模型處理數(shù)據(jù)的重要入口。
許多模型本質(zhì)上并不直接理解“圖片”“句子”或“商品”這些語義對象,而是先把它們看成向量,再在向量空間中進(jìn)行運(yùn)算和學(xué)習(xí)。
2、常見應(yīng)用場景
(1)在數(shù)據(jù)分析中,向量可用于表示樣本特征
在數(shù)據(jù)分析中,一個樣本通常由多個特征組成。
例如,一個學(xué)生可以用“語文、數(shù)學(xué)、英語”三個分?jǐn)?shù)表示,一個商品可以用“價格、銷量、評分”三個指標(biāo)表示。此時,每個樣本都可以看成一個向量。
(2)在機(jī)器學(xué)習(xí)中,向量是模型輸入的基本形式
在機(jī)器學(xué)習(xí)中,模型接收的輸入通常是一組數(shù)值特征。
這些特征按順序排列后,就構(gòu)成輸入向量。無論是分類、回歸還是聚類,很多算法都建立在向量表示的基礎(chǔ)上。
(3)在自然語言處理中,詞語和句子也常被表示為向量
在自然語言處理(Natural Language Processing,NLP)中,模型不能直接處理文字本身,而通常要先把詞語、句子甚至整段文本轉(zhuǎn)換成向量。
這種向量表示常被稱為詞向量(Word Embedding)或文本向量。
(4)在推薦系統(tǒng)與檢索系統(tǒng)中,向量常用于表示用戶和物品
在推薦系統(tǒng)中,用戶和商品常常都會被表示成向量。
之后,系統(tǒng)可以通過比較向量之間的距離或相似度,來判斷“這個用戶可能喜歡哪個商品”。
(5)在圖像處理中,圖像也可以表示成向量
一張圖像本質(zhì)上由大量像素值組成。
若按一定順序把這些像素值展開,就可以得到一個高維向量。因此,圖像識別和圖像分類任務(wù)也離不開向量表示。
可以概括地說:原始對象說明“它是什么”;向量說明“它在數(shù)值上如何表示”。
三、使用向量時需要注意的問題
向量雖然非常常用,但在理解和使用時也要注意幾個問題。
1、向量中的每個位置必須有明確含義
向量不是隨意排列的一串?dāng)?shù)字,而是有明確維度語義的數(shù)值表示。
如果不知道每個位置代表什么,就很難正確解釋這個向量。
2、向量的順序不能隨意改變
向量中的位置順序通常與具體特征一一對應(yīng)。
若順序被打亂,即使數(shù)字不變,向量的含義也可能完全改變。
3、不同維度的量綱和尺度可能不同
在實(shí)際問題中,向量的不同分量可能具有不同單位和不同取值范圍。
例如,一個維度是年齡,另一個維度是年收入。若直接進(jìn)行距離計算,數(shù)值較大的維度往往影響更大。因此,在很多任務(wù)中,需要先做(Normalization)或(Standardization)。
4、維度越高,向量不一定越“好”
向量的維度增加,確實(shí)可能包含更多信息,但也可能帶來冗余、噪聲和計算復(fù)雜度上升等問題。
在高維空間中,距離和相似度的表現(xiàn)也會變得更復(fù)雜,因此維度并不是越高越好。
5、向量只是表示方式,不等于對象本身
向量是對對象的一種數(shù)值化表示,而不是對象本身。
一個向量能否有效反映真實(shí)對象,取決于它是否保留了足夠有用的信息。因此,向量表示的質(zhì)量,往往會直接影響模型效果。
四、Python 示例
下面給出兩個簡單示例,用來說明向量的基本表示方式,以及它如何幫助我們描述對象和進(jìn)行簡單計算。
示例 1:用向量表示一個學(xué)生的成績
這個例子展示了向量最基本的作用:把一個對象在多個維度上的信息按順序組合起來,從而形成統(tǒng)一的數(shù)值表示。
示例 2:用向量比較兩個學(xué)生的成績差異
這個例子說明,一旦對象被表示成向量,我們就可以很方便地做逐維比較。這里得到的“成績差向量”,描述的就是兩個學(xué)生在各門課程上的差異情況。
小結(jié)
向量是一種用一組有順序的數(shù)值來表示對象的方法。在人工智能和數(shù)據(jù)分析中,它是把現(xiàn)實(shí)對象轉(zhuǎn)化為可計算形式的重要橋梁。無論是樣本特征、文本表示、圖像數(shù)據(jù)還是模型參數(shù),很多內(nèi)容都可以抽象為向量。對初學(xué)者而言,可以把它理解為:對象本身說明“它是什么”,而向量說明“它如何被數(shù)字化地表達(dá)出來”。
![]()
“點(diǎn)贊有美意,贊賞是鼓勵”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.