網易首頁 > 網易號 > 正文申請入駐

人工智能通識課：大模型

2026-05-28 00:12:39　來源: MediaTea

湖南舉報

分享至

大模型是當前人工智能發展中最具代表性的技術形態之一。它以深度學習為基礎，通過海量數據、龐大參數和強大算力進行訓練，能夠在語言理解、文本生成、圖像分析、代碼編寫、知識問答、工具調用和多模態交互等任務中表現出較強的通用能力。

在日常使用中，人們最熟悉的大模型往往是大語言模型，例如能夠對話、寫作、翻譯、總結、編程和輔助學習的智能助手。

但從技術體系看，大模型并不只包括大語言模型，還包括視覺大模型、語音大模型、多模態大模型以及面向特定領域的專業模型。

圖 1：大模型在人工智能體系中的位置

如果說傳統人工智能系統常常是“一個模型解決一個任務”，那么大模型更接近“一個基礎模型適配多種任務”。

用戶不再必須掌握復雜代碼或專業指令，而可以通過自然語言、圖片、文件、語音等方式表達任務，讓模型理解意圖、組織知識、生成結果，并在必要時調用外部工具完成更復雜的工作。

一、什么是大模型

大模型（Large Model）是指參數規模龐大、訓練數據豐富、計算資源消耗巨大，并具有較強通用任務處理能力的深度學習模型。

這里的“大”，并不只是指模型文件很大，而是包括多個層面的規模化。

（1）參數規模大

模型內部包含大量可學習參數，用來表示語言、圖像、聲音、代碼和知識模式。

（2）訓練數據大

模型通常使用大規模文本、代碼、圖像、音頻、視頻等數據進行訓練。

（3）計算消耗大

訓練和推理需要大量 GPU、TPU 或其他 AI 加速芯片支持。

（3）任務覆蓋廣

模型不只面向單一任務，而是能夠通過提示詞、微調、檢索和工具調用適配多種任務。

從通識角度看，可以把大模型理解為一種“通用智能底座”。

它不是簡單存儲答案的數據庫，而是通過大量參數學習數據中的規律，再根據當前輸入生成最可能、最合適的輸出。

不過，這也意味著大模型的輸出具有概率性。

它可以生成非常流暢、結構清晰、看似合理的內容，但并不保證每一句都真實可靠。

因此，理解大模型，不能只看到它“會回答問題”的一面，也要理解它“按概率生成內容”的本質。

二、大模型、大語言模型與生成式人工智能

理解大模型，首先要區分幾個容易混淆的概念。

1、大模型

大模型是更寬泛的概念，指具有大規模參數和通用能力的人工智能模型。它可以處理文本，也可以處理圖像、語音、視頻、表格、代碼等不同類型的數據。

按照主要處理對象，可以大致分為：

? 大語言模型：主要處理自然語言和代碼

? 視覺大模型：主要處理圖像、視頻等視覺信息

? 語音大模型：主要處理語音識別、語音合成和音頻理解

? 多模態大模型：同時處理文本、圖像、語音、視頻等多種信息

2、大語言模型

大語言模型（Large Language Model，LLM）是大模型在語言領域的典型形態。它以自然語言為核心處理對象，能夠理解、生成、改寫、總結、翻譯和組織文本，也能完成代碼生成、知識問答、邏輯推理和工具調用等任務。

大語言模型的基本能力來自對大規模語料的學習。

它通過預測語言序列中的下一個 Token，逐步學習詞語關系、句法結構、語義模式、知識關聯和任務表達方式。

3、多模態大模型

多模態大模型（Multimodal Large Model，MLLM）突破了單一文本輸入的限制，可以同時處理文本、圖像、音頻、視頻、表格、文件等信息。

例如，用戶可以上傳一張圖表，讓模型解釋其中的數據趨勢；

也可以輸入一張截圖，讓模型分析界面問題；

還可以讓模型根據文字描述生成圖像、說明視頻內容或整合多種材料完成綜合分析。

這意味著大模型正在從“語言智能”擴展為“多模態智能接口”。

4、生成式人工智能

生成式人工智能（Generative AI）是指能夠生成新內容的人工智能技術。它可以生成文本、圖像、音頻、視頻、代碼、設計方案等內容。

大模型為生成式人工智能提供了重要基礎。

大語言模型可以生成文章、摘要、代碼和對話；

圖像生成模型可以生成插畫、海報和設計圖；

多模態模型可以在文本、圖像、語音之間進行轉換和聯動。

因此，可以這樣理解：

? 大模型是底層能力基礎

? 大語言模型是語言方向的大模型

? 多模態大模型是跨模態方向的大模型

? 生成式人工智能是大模型最典型的應用形態之一

三、大模型為什么能夠工作

大模型之所以表現出較強能力，并不是因為它真正像人一樣“理解世界”，而是因為它在訓練過程中從海量數據中學習了大量語言規律、知識關聯、表達模式和任務結構。

可以用兩個關鍵詞理解大模型的基本思想：有損壓縮與概率重構。

1、有損壓縮：把數據規律壓縮進參數

大模型并不是把訓練資料逐條存入內部數據庫。它更像是把大量數據中的語言規律、知識結構、表達方式和任務模式壓縮進神經網絡參數中。

所謂“有損壓縮”（Lossy Compression），是指模型不可能完整記住所有訓練資料的每個細節，而是學習其中更普遍的統計規律和語義關系。

因此，大模型可能知道許多概念、風格和表達方式，卻不一定能準確記住某個具體事實、某篇文章的原文或最新發生的事件。

2、概率重構：根據上下文生成結果

所謂“概率重構”（Probabilistic Reconstruction），是指模型在生成回答時，并不是從數據庫中取出固定答案，而是根據當前上下文預測接下來最可能出現的 Token，并逐步生成完整內容。

以自回歸語言模型為例，生成一段文本可以簡化理解為：先根據前文預測下一個 Token，再把這個 Token 加入上下文，繼續預測下一個 Token，直到生成完整回答。

其中：

? x? 表示第 t 個 Token

? P(x? | x?, x?, ..., x???) 表示模型根據前文預測當前 Token 的概率

? 整段文本的生成可以看作多個條件概率連續預測的結果

這也解釋了為什么大模型既強大又不完美。

它可以組織語言、遷移模式、生成結構化內容，但也可能出現事實錯誤、來源編造、邏輯跳躍和過度自信等問題。

3、數據、參數與算力共同支撐模型能力

大模型能力的形成，離不開三個基礎條件：數據、參數和算力。

圖 2：大模型的數據、參數與算力三大支撐

第一，數據（Data）是模型學習規律的來源。

模型需要從大量文本、代碼、圖像、音頻、視頻等數據中學習語言表達、知識關聯、視覺模式、推理步驟和任務格式。

但數據并不是越多越好，高質量數據還需要具有準確性、多樣性、代表性和合規性。

第二，參數（Parameters）是模型存儲和表達模式的載體。

參數是神經網絡中可學習的數值，也常稱為權重。模型通過訓練不斷調整參數，使其能夠表示復雜的數據規律。

參數規模越大，模型理論上越有能力表示復雜模式，但參數更多并不自動等于能力更強。

第三，算力（Compute）是訓練和推理的基礎設施。

大模型訓練需要大量矩陣運算，通常依賴 GPU、TPU 或其他 AI 加速芯片。長文本分析、多輪對話、多模態理解和高并發訪問，也會顯著增加推理成本。

因此，大模型的發展不只是算法問題，也是數據工程、計算系統、能源消耗和產業基礎設施共同作用的結果。

四、大模型的發展脈絡

大模型不是憑空出現的，而是自然語言處理、深度學習和計算基礎設施長期發展的結果。

圖 3：大模型的發展脈絡

1、規則系統時代

早期自然語言處理系統主要依賴人工規則、詞典和語法模板。

例如，系統根據關鍵詞識別意圖，或根據預設語法規則分析句子結構。

這類方法在范圍有限、規則清晰的任務中有效，但真實語言具有歧義、隱喻、上下文、文化背景和開放表達。人工規則很難窮盡所有情況，因此系統往往脆弱、僵硬，難以泛化。

2、統計語言模型時代

隨著機器學習的發展，研究者開始使用統計方法處理語言。模型不再完全依賴人工規則，而是從大量語料中統計詞語共現和序列概率。

N-gram 模型就是典型方法。它通過前面若干個詞預測下一個詞。

例如，在大量語料中，“舉頭望”后面出現“明月”的概率遠高于出現“電腦”。

統計語言模型讓機器獲得了初步的“語言概率感”，但它主要依賴局部上下文，難以處理長距離依賴和深層語義。

3、神經語言模型時代

深度學習引入后，詞語不再只是離散符號，而可以表示為向量。

Word2Vec 等詞嵌入方法讓語義相近的詞在向量空間中更接近，為語義計算提供了基礎。

隨后，、、等序列模型開始用于處理文本序列。它們能夠逐步讀取上下文，比傳統統計模型更適合語言生成和序列建模。

但這類模型通常按順序處理文本，訓練效率有限，也難以穩定捕捉非常長的依賴關系。

4、Transformer 與大模型時代

Transformer 的出現改變了序列建模方式。它使用注意力機制直接建模序列中不同位置之間的關系，不再依賴傳統循環結構逐步處理文本，因此更適合并行訓練和大規模擴展。

在 Transformer 基礎上，研究者進一步形成了“預訓練 + 微調 / 對齊 / 提示詞適配”的范式。模型先在海量數據上學習通用能力，再通過指令微調、偏好學習、檢索增強、工具調用等方式適配具體任務。

大模型時代的關鍵變化在于：模型不再只是某個任務的專用工具，而逐漸成為能夠承載多任務、多模態、多場景應用的基礎平臺。

五、大模型如何表示和處理信息

大模型處理信息時，并不是直接理解人類看到的字、詞、句子或圖片，而是先把輸入轉換為模型可以計算的形式。

圖 4：從文本到 Token、Embedding 與上下文窗口

1、Token：模型處理文本的基本單位

Token（詞元）是大語言模型處理文本的基本單位。它可以是一個字、一個詞、一個子詞、一個符號，甚至是詞的一部分。

例如，一個中文句子：

“深度學習改變了人工智能。”

可能被切分為若干 Token。每個 Token 會被轉換成一個編號，再送入模型處理。

Token 很重要，因為它影響三個方面：

? 輸入長度：模型一次能處理多少內容

? 推理成本：輸入和輸出 Token 越多，計算成本越高

? 生成效率：模型通常按 Token 逐步生成回答

2、Embedding：把 Token 轉換成向量

Token 編號本身只是離散數字，不能直接表達語義。模型需要通過嵌入層將 Token 轉換為向量，這就是Embedding。

Embedding 的作用是把語言符號映射到連續向量空間中，使模型能夠用數學方式處理語義關系。

例如，“醫生”“醫院”“疾病”在語義上可能更接近，而“醫生”和“籃球”距離較遠。Embedding 使模型能夠在向量空間中表示這種語義接近關系。

3、上下文窗口：模型一次能看到的信息范圍

上下文窗口（Context Window）指模型一次可以處理的 Token 數量。提示詞、歷史對話、上傳文檔、檢索內容、系統指令和正在生成的回答，都會占用上下文窗口。

上下文窗口越大，模型一次可以處理的信息越多，適合長文檔閱讀、多輪對話、多文件分析和復雜任務規劃。

但上下文窗口并不等于無限記憶。即使上下文很長，模型也可能忽略細節、混淆信息或對長文本理解不均衡。

因此，使用大模型時，應盡量把重要信息放在清晰、結構化的位置，而不是簡單堆疊大量材料。

4、多模態輸入：從文本擴展到圖像、語音和視頻

多模態大模型還會把圖像、語音、視頻等信息轉換為模型可處理的表示。

例如，圖像可以被切分為視覺片段，語音可以轉換為音頻特征，視頻可以被表示為時間序列中的視覺和聲音信息。

這些不同模態的信息經過編碼后，可以與文本表示結合，使模型能夠完成看圖問答、圖表分析、語音交互、視頻理解和圖文生成等任務。

六、Transformer 與注意力機制

現代大語言模型大多建立在架構之上。

Transformer 的核心貢獻是使用注意力機制建模序列中不同位置之間的關系，從而更好地處理上下文依賴，并適合大規模并行訓練。

圖 5：Transformer 與自注意力機制示意圖

1、為什么 Transformer 重要

在 Transformer 之前，許多序列模型需要按順序處理文本。這樣做符合語言順序，但訓練效率較低，也不容易處理非常長的依賴關系。

Transformer 使用注意力機制，讓模型能夠直接計算一個 Token 與其他 Token 之間的關系。這樣，模型在理解某個詞時，可以同時參考上下文中的多個位置，而不必完全依賴逐步傳遞的“記憶”。

這使 Transformer 特別適合大規模訓練，也成為現代大語言模型的重要基礎。

2、自注意力機制的基本思想

（Self-Attention）允許每個 Token 在理解自身含義時，動態關注上下文中的其他 Token。

例如，在句子“蘋果發布了新手機，它的攝像頭更清晰”中，“它”更可能指“新手機”，而不是“蘋果”這個詞本身。模型需要根據上下文判斷指代關系。

自注意力機制的典型形式可以寫成：

其中

?Q表示 Query，即當前 Token 想查詢什么信息

?K表示 Key，即其他 Token 提供什么可匹配的信息

?V表示 Value，即真正被匯總的信息內容

? d? 表示 Key 向量維度，用于縮放點積結果

? softmax 用于把相關性分數轉換為權重分布

通俗地說，自注意力機制就是讓模型在理解某個詞時，自動判斷“當前最應該關注上下文中的哪些詞”。

3、多頭注意力與深層堆疊

（Multi-Head Attention）可以讓模型從多個角度同時觀察上下文。

有的注意力頭可能關注語法關系，有的可能關注指代關系，有的可能關注主題關系，有的可能關注格式結構。

Transformer 通常會堆疊很多層。每一層都會對輸入表示進行新的加工，使模型逐步形成更復雜的語義表示和任務能力。

對于通識學習者來說，不必一開始掌握 Transformer 的所有數學細節。更重要的是理解：Transformer 讓模型能夠高效建模上下文關系，并支撐大規模預訓練。

七、大模型如何訓練與對齊

一個大模型要成為可用的智能助手，通常需要經歷多個階段：預訓練、指令微調、偏好對齊和安全對齊。

圖 6：大模型生命周期——從數據到應用

1、預訓練：學習通用規律

預訓練（Pretraining）是大模型能力形成的基礎階段。

模型使用海量數據進行自監督學習，從文本、代碼、圖像或多模態數據中學習通用模式。

以自回歸語言模型為例，常見訓練目標是“根據前文預測下一個 Token”。這個目標看似簡單，卻迫使模型學習大量知識：

? 語法結構

? 詞語搭配

? 指代關系

? 常識知識

? 領域知識

? 寫作格式

? 代碼結構

? 問答模式

因此，下一個 Token 預測不是簡單的文字接龍，而是一種能夠壓縮語言規律、語義關系和知識模式的訓練目標。

2、指令微調：讓模型學會聽指令

經過預訓練的模型已經具備語言建模能力，但它未必天然適合回答用戶問題。指令微調（Instruction Tuning）通常使用“指令—回答”數據繼續訓練模型，讓模型學會根據人類指令完成任務。

例如：

? 用戶要求“總結這段文字”，模型應輸出摘要

? 用戶要求“用通俗語言解釋”，模型應降低表達難度

? 用戶要求“輸出 Python 代碼”，模型應按照代碼格式回答

? 用戶要求“列出三點建議”，模型應遵守數量和結構要求

指令微調使模型從“補全文本”進一步變成“響應任務”。

3、偏好對齊：讓模型更符合人類偏好

偏好對齊（Preference Alignment）的目標，是讓模型輸出更有幫助、更真實、更安全、更符合人類期望的回答。

常見做法是收集人工示范和偏好排序數據，讓模型學習哪些回答更受人類認可。基于人類反饋的強化學習（RLHF）就是其中一種重要方法。

簡單來說：

? 指令微調主要告訴模型“應該怎樣回答”

? 偏好對齊進一步告訴模型“哪些回答更好”

4、安全對齊：減少有害輸出

大模型可能被用于生成虛假信息、攻擊性內容、隱私泄露內容或危險操作指導。因此，安全對齊（Safety Alignment）是大模型應用中的重要環節。

安全對齊通常包括：

? 拒絕明顯有害請求

? 避免輸出違法、危險或侵犯隱私的內容

? 對不確定內容表達不確定性

? 在醫療、法律、金融等高風險場景中提示專業限制

? 減少偏見、歧視和刻板印象

? 防止模型被惡意提示詞繞過安全邊界

經過這些階段后，大模型才更接近用戶日常看到的智能助手形態。

八、大模型如何生成結果

訓練是讓模型獲得能力，推理則是模型真正為用戶生成結果的過程。

用戶日常向大模型提問、上傳文件、要求寫代碼或總結文章，本質上都是在使用模型進行推理。

1、推理：從輸入到輸出的生成過程

推理（Inference）是指訓練好的模型根據用戶輸入生成輸出的過程。

以文本生成為例，模型會讀取輸入提示詞和上下文信息，計算下一個 Token 的概率分布，然后選擇一個 Token 輸出。接著，它把新生成的 Token 加入上下文，繼續預測下一個 Token，直到生成完整回答或達到停止條件。

這意味著，大模型的回答不是一次性寫出來的，而是一步一步生成出來的。

2、采樣：為什么同一個問題可能得到不同回答

如果模型每次都選擇概率最高的 Token，輸出會更穩定，但也可能更單調。如果模型允許從多個可能 Token 中進行選擇，回答就會更靈活、更有創造性，但也可能更不穩定。

這就是采樣策略（Sampling Strategy）的作用。它控制模型如何從概率分布中選擇輸出。

常見影響因素包括：

? 溫度：溫度越低，輸出通常越穩定；溫度越高，輸出通常越發散

? Top-p：限制模型只在累計概率較高的一組候選 Token 中選擇

? 最大輸出長度：控制模型最多生成多少 Token

? 停止條件：控制模型在何處結束生成

對于事實問答、代碼生成、教材寫作等任務，通常更需要穩定和準確；對于頭腦風暴、創意寫作、故事構思等任務，可以適當提高多樣性。

3、推理成本：輸入和輸出都會消耗資源

大模型推理需要計算資源。輸入越長，模型需要處理的信息越多；輸出越長，生成所需計算也越多。

因此，推理成本通常與以下因素有關：

? 輸入 Token 數量

? 輸出 Token 數量

? 模型規模

? 上下文窗口大小

? 是否使用多模態輸入

? 是否調用外部工具

? 并發訪問數量

這也解釋了為什么長文檔分析、多文件總結、多輪對話和復雜智能體任務通常成本更高、延遲更長。

九、如何通過提示詞使用大模型

提示詞（Prompt）是用戶與大模型交互的主要方式。它可以包含任務說明、背景材料、輸出格式、示例、約束條件和角色設定。

提示詞工程并不是神秘技巧，而是把人的需求轉化為模型更容易理解和執行的任務說明。

圖 7：提示詞、上下文窗口與模型輸出關系

1、提示詞不是“咒語”，而是任務說明

很多人把提示詞理解成某種固定模板，似乎只要找到“萬能提示詞”，就能讓模型無所不能。實際上，提示詞更接近任務說明書。

一個好的提示詞通常包含：

? 任務目標：要模型完成什么

? 輸入材料：模型應依據什么內容

? 輸出格式：回答要用段落、列表、代碼還是其他形式

? 受眾對象：輸出給誰看

? 約束條件：字數、風格、范圍、禁止內容

? 判斷標準：什么樣的回答算好

例如，與其說：

“幫我寫一篇文章。”

不如說：

“請面向大學低年級學生，撰寫一篇介紹大模型的通識文章。要求先解釋基本概念，再講訓練流程，最后討論應用與風險；語言通俗但不失專業；每節控制在 500 字以內。”

后者更清楚，因此更容易得到穩定輸出。

2、幾種常用提示方法

第一，角色設定。

讓模型以某種專業角色完成任務，例如“請作為人工智能通識課程教師解釋 RAG 的基本原理”。角色設定的目的不是讓模型表演，而是幫助限定知識范圍、表達風格和任務語境。

第二，示例提示。

用戶可以提供幾個輸入—輸出示例，讓模型模仿其中的格式、風格和處理邏輯。這種方法適合批量改寫、信息抽取、標題生成和格式轉換。

第三，分步驟提示。

對于復雜任務，可以要求模型先分析問題，再列出步驟，最后給出結論。這樣有助于提升回答的結構性，但不能保證每一步都正確。

第四，多維約束。

用戶可以明確指定字數、格式、受眾、風格、引用要求和禁止事項。任務越復雜，越需要結構化表達。

3、提示詞的基本原則

對通識學習者來說，不必一開始追求復雜模板。更實用的原則是：

? 把任務說清楚

? 把背景材料給完整

? 把輸出格式指定明確

? 把受眾和難度說明白

? 對重要約束單獨列出

? 對復雜任務分步驟要求

? 對事實性內容要求核查或引用依據

提示詞的價值，不在于制造“神奇效果”，而在于減少歧義、控制輸出、提高任務完成質量。

十、大模型如何連接外部知識和工具

大模型的知識主要來自訓練階段。

訓練完成后，模型參數通常不會自動更新。這意味著模型可能不知道最新事件，也可能不了解企業內部文檔、課程資料、個人知識庫或專業數據庫中的內容。

為了彌補這些不足，大模型應用通常會結合外部知識、外部工具和任務流程。

圖 8：大模型連接外部知識和工具的基本方式

1、RAG：連接外部知識

檢索增強生成（Retrieval-Augmented Generation，RAG）讓模型在回答問題前先檢索外部資料，再基于檢索結果生成回答。

一個典型系統通常包括以下步驟：

（1）用戶提出問題；

（2）系統從文檔庫中檢索相關片段；

（3）系統把相關片段與用戶問題一起放入提示詞；

（4）大模型基于這些材料生成回答；

（5）必要時附上來源或引用，便于人工核查。

RAG 特別適合企業知識庫問答、課程資料問答、法規政策檢索、產品說明書查詢、私有文檔問答和需要引用依據的專業寫作。

但 RAG 不能完全消除幻覺。

檢索結果可能不完整、不相關或過時；模型也可能錯誤理解檢索片段。因此，重要場景中仍需要來源引用、人工審核和質量控制。

2、知識圖譜：組織結構化知識

（Knowledge Graph）是一種以“實體—關系—實體”為核心的結構化知識網絡。

例如：

? “愛因斯坦—提出—相對論”

? “公司 A—屬于—新能源行業”

? “疾病 B—可能癥狀—發熱”

? “課程 C—包含—章節 D”

大模型擅長語言理解和生成，但對事實精確性、實體關系和復雜約束并不總是可靠。知識圖譜可以為模型提供更明確的實體、關系和背景知識。

3、工具調用：讓模型完成外部操作

當大模型能夠調用外部工具時，它就不僅能生成文本，還能執行更復雜的任務。

例如：

? 調用搜索工具獲取最新信息

? 調用計算器完成精確計算

? 調用代碼解釋器處理數據

? 調用日歷、郵件、文檔工具完成辦公任務

? 調用數據庫查詢業務數據

? 調用圖像模型生成或編輯圖片

這種模式的核心思想是：讓語言模型負責理解任務、規劃步驟和組織結果，讓外部工具負責精確計算、檢索、執行和驗證。

4、智能體：從回答問題到執行任務

智能體（Agent）是大模型應用的重要方向。它不是單純回答問題，而是圍繞目標進行任務分解、工具選擇、執行反饋和結果整合。

一個基本智能體通常包括：

? 任務理解：判斷用戶真正要完成什么

? 任務規劃：把復雜目標拆成多個步驟

? 工具選擇：決定是否需要搜索、計算、寫代碼或查詢數據庫

? 執行反饋：根據工具返回結果調整下一步

? 結果整合：把多步執行結果組織成可理解的回答

智能體的價值在于，它讓大模型不再只是“會說”，而是逐步具備“會查、會算、會寫、會調用工具、會整合結果”的能力。

十一、大模型能做什么

大模型不是一種只會聊天的模型，而是以自然語言和多模態輸入為接口的通用任務處理系統。它的常見能力可以概括為五類。

圖 9：大模型主要能力體系圖

1、理解

大模型可以閱讀、分類、抽取和解釋信息。

例如，它可以閱讀一段文本，提取人物、時間、地點和事件；也可以分析用戶評論，判斷情感傾向和主要訴求。

2、生成

大模型可以生成文章、摘要、郵件、報告、故事、腳本和說明文檔。它也可以根據要求進行改寫、擴寫、縮寫、翻譯和風格轉換。

但生成不等于事實可靠。專業寫作、新聞發布、論文撰寫和商業內容發布，都需要人工核查和編輯。

3、編程

大模型可以輔助生成代碼、解釋報錯、編寫測試、補全文檔和處理數據。它也可以幫助學習者理解算法、閱讀代碼和設計簡單程序。

但代碼生成必須運行驗證。模型生成的代碼可能存在邏輯錯誤、安全漏洞、依賴版本問題或邊界條件缺失。

4、多模態處理

多模態大模型可以處理圖像、語音、視頻、表格和文件。

例如，它可以解釋統計圖表、分析截圖、描述圖片內容、總結音頻轉寫文本，或整合多個文件回答問題。

在圖像生成方向，Stable Diffusion 等文生圖模型展示了提示詞在視覺生成中的作用。不過，文生圖模型的采樣器、反向提示詞、分辨率和生成步數等細節，更適合在圖像生成專題中單獨學習。

5、執行任務

結合 RAG、工具調用和智能體后，大模型可以完成更復雜的任務流程。

例如，先檢索資料，再整理信息，隨后生成報告，最后調用工具制作圖表或代碼。

這類能力使大模型從“內容生成工具”逐漸擴展為“任務協作平臺”。

十二、如何選擇合適的大模型

面對不同廠商、不同版本、不同后綴的大模型，學習者不必死記所有名稱，而應理解模型選擇的基本邏輯。

圖 10 大模型選擇的基本維度

1、按任務選擇

不同任務適合不同模型：

? 通用問答、寫作、翻譯：選擇綜合能力較強的通用模型

? 長文檔分析：選擇上下文窗口較大、文檔處理穩定的模型

? 代碼開發：選擇代碼能力強、支持工具調用的模型

? 圖像、語音、視頻任務：選擇多模態能力強的模型

? 高風險專業場景：優先選擇有檢索、引用、審計和人工審核機制的系統

? 本地部署或低成本應用：可以考慮輕量模型或開源模型

2、按開放程度選擇

閉源模型（Closed-source Model）通常由企業提供在線服務，綜合能力強、使用方便、工具生態成熟，但模型內部細節不完全公開，定制和私有部署受限制。

開源模型（Open-source Mode）可以下載、研究、微調和本地部署，更適合教學、科研、企業私有化和特定場景定制。但開源模型的部署、優化、安全管理和成本控制也需要更多技術能力。

選擇開源還是閉源，本質上是在能力、成本、透明度、可控性和安全性之間做權衡。

3、按性能、速度和成本選擇

大模型名稱中的后綴通常反映了廠商對模型能力、速度、成本和場景的定位。

常見理解方式包括：

? Pro、Plus、Max 等通常表示能力更強，適合復雜任務

? Turbo、Speed 等通常表示速度更快，適合高頻交互

? Mini、Lite、Small 等通常表示輕量模型，適合低成本或端側部署

? Omni、o 等通常強調多模態統一處理能力

? Legal、Medical、Coder 等后綴通常表示面向特定領域或任務優化

? Opus、Sonnet、Haiku 等名稱通常表示同一模型家族內部的不同能力層級。

使用時不應迷信名稱，而應根據任務復雜度、輸入類型、輸出質量、成本預算和安全要求進行選擇。

十三、如何評估大模型

高質量使用大模型，不能只看它“會不會回答”，還要看它“答得是否可靠、是否穩定、是否安全、是否適合任務”。

1、事實性

事實性評估關注模型回答是否符合真實資料。它尤其適用于知識問答、新聞總結、法律法規、醫學信息、學術寫作和政策解讀等場景。

如果模型能夠給出引用來源，仍需要檢查來源是否真實、是否相關、是否過時，以及模型是否正確理解了來源內容。

2、指令遵循

指令遵循評估關注模型是否按照用戶要求完成任務。

例如，用戶要求“列出三點”，模型是否真的列出三點；用戶要求“不超過 200 字”，模型是否控制字數；用戶要求“只根據材料回答”，模型是否引入了外部猜測。

指令遵循能力對教學、辦公、寫作、代碼生成和自動化工作流都非常重要。

3、魯棒性

魯棒性評估關注模型在輸入變化、表達不完整、材料有噪聲或問題略有改寫時，是否仍能穩定完成任務。

一個模型如果只在標準問題下表現良好，但遇到復雜表達、長上下文或邊界情況就明顯出錯，就說明魯棒性不足。

4、安全性

安全性評估關注模型是否會輸出違法、有害、歧視、隱私泄露、危險操作指導或不適合傳播的內容。

高風險應用中，還需要進行紅隊測試，即主動設計攻擊性、誘導性或邊界性問題，測試模型是否會突破安全限制。

5、RAG 與智能體評估

如果大模型應用結合了 RAG、工具調用或智能體，還需要評估整個系統，而不是只評估語言模型本身。

例如：

? 檢索結果是否相關

? 引用資料是否準確

? 工具調用是否正確

? 多步驟任務是否遺漏關鍵環節

? 最終回答是否忠實于檢索材料和工具結果

? 出錯時系統是否能夠發現并修正

這類評估更接近真實應用質量評估，也是大模型落地時不可忽視的環節。

十四、大模型的能力邊界、風險與治理

大模型能力強大，但并不等于可靠、透明、低成本或無風險。理解邊界，是正確使用大模型的重要前提。

圖 11：大模型的能力邊界與風險治理

1、會生成，不等于事實正確

大模型擅長生成流暢文本，但流暢不等于正確。它可能編造事實、文獻、數據、來源和不存在的概念。

這類問題通常稱為“幻覺”（Hallucination）。幻覺的根源在于模型按概率生成內容，而不是直接從事實數據庫中取出答案。

RAG、工具調用和引用機制可以降低幻覺風險，但不能完全消除。

2、會表達，不等于真正理解

大模型可以用很自然的語言解釋復雜概念，但這并不意味著它像人一樣理解現實世界。它更多是在上下文中匹配模式、組織語言和生成合理表達。

因此，對于需要真實經驗、價值判斷、責任承擔和專業決策的場景，不能把模型輸出直接等同于人的判斷。

3、會推理，不等于每一步都可靠

大模型可以完成一些數學、邏輯、代碼和方案分析任務，但它的推理過程可能跳步、誤判、遺漏條件或受提示詞影響。

對復雜推理任務，應要求模型給出步驟，并結合外部工具、人工檢查或可驗證計算進行復核。

4、會調用工具，不等于結果一定正確

工具調用可以增強模型能力，但系統仍可能在問題理解、工具選擇、參數填寫、結果解釋和最終整合中出錯。

因此，工具增強系統需要日志、權限、審計、異常處理和人工確認機制，特別是在涉及金錢、合同、醫療、法律和公共安全的場景中。

5、上下文很長，不等于永久記憶

上下文窗口可以讓模型一次處理更多信息，但它不是永久記憶。模型可能遺忘早期信息、忽略細節、混淆多個文件，或者對長文本中的局部內容理解不均衡。

長文檔任務中，應使用結構化材料、分段處理、檢索機制和人工檢查，不能簡單把大量內容一次性丟給模型。

6、模型更大，不等于所有任務都更好

更大的模型通常具有更強的綜合能力，但并不意味著它在所有任務上都最合適。對于簡單分類、固定格式抽取、低延遲交互、本地部署和隱私敏感任務，小模型或專用模型可能更合適。

選擇模型時，應綜合考慮效果、成本、速度、可控性、安全性和部署環境。

7、隱私、版權與數據安全風險

使用大模型時，不應隨意輸入個人隱私、商業機密、未公開代碼、客戶數據或敏感文件。

企業應用中還需要考慮：

? 數據隔離

? 權限控制

? 日志審計

? 加密傳輸

? 私有化部署

? 合規審查

? 數據最小化使用

在內容生成場景中，還應注意版權、數據來源和生成內容歸屬問題。商業發布、教育出版、媒體傳播和產品設計，都需要人工編輯和合規審查。

8、偏見、可解釋性與責任歸屬

大模型從數據中學習，如果訓練數據包含偏見、歧視、刻板印象或不平衡觀點，模型也可能在輸出中反映這些問題。

同時，大模型內部包含大量參數和復雜計算過程。即使模型給出正確答案，也不一定容易解釋“為什么這樣回答”。在醫療、法律、金融、教育評價和公共治理等場景中，這會帶來責任歸屬和審計困難。

因此，大模型應用需要持續評估、可追溯來源、人工復核和明確責任邊界。

9、算力、成本與可持續發展

大模型訓練和部署需要大量算力，也帶來能源消耗和成本壓力。模型越大，訓練成本、推理成本、部署成本和環境壓力往往越高。

為降低成本，常見技術方向包括：

? 模型壓縮

? 量化

? 剪枝

? 蒸餾

? 高效推理

? 小模型專用化

? 端側部署優化

未來大模型發展不只是追求“更大”，也要追求“更高效、更可靠、更可控”。

十五、如何正確學習和使用大模型

學習大模型，不應只停留在“會不會使用聊天工具”的層面，而應理解其基本機制、能力邊界和應用方法。

1、先理解基本概念

學習大模型，應優先掌握以下概念：

? Token：模型處理文本的基本單位

? Embedding：Token 的向量表示

? 上下文窗口：模型一次可處理的信息范圍

? Transformer：現代大語言模型的核心架構

? 自注意力：建立上下文關系的關鍵機制

? 預訓練：從大規模數據中學習通用能力

? 指令微調：讓模型學會響應任務

? 偏好對齊：讓模型更符合人類偏好

? RAG：讓模型連接外部知識

? 工具調用：讓模型使用外部工具完成任務

? 智能體：讓模型進行任務規劃、執行和反饋

? 幻覺：模型生成錯誤內容的重要風險

2、再掌握任務表達方法

使用大模型，關鍵是把任務表達清楚。好的任務表達通常包括：

? 你要模型做什么

? 模型應依據哪些材料

? 輸出給誰看

? 輸出采用什么結構

? 有哪些限制條件

? 是否需要引用、檢查或比較

? 是否允許模型說明不確定性

例如，與其說：

“解釋一下 Transformer。”

不如說：

“請面向高中生，用通俗語言解釋 Transformer 的自注意力機制。要求：先用生活類比，再給出技術解釋，最后用 3 條要點總結，不使用復雜公式。”

3、重要任務要建立驗證流程

大模型輸出越像“專業答案”，越需要驗證。常見驗證方式包括：

? 檢查事實來源

? 要求引用依據

? 與權威資料對照

? 讓模型列出不確定點

? 用搜索、數據庫或專業工具驗證

? 讓專業人員復核

? 對代碼進行運行測試

? 對數據分析結果進行復算

大模型的價值不是替代人的判斷，而是幫助人更快組織信息、發現思路、生成初稿和完成輔助性工作。

小結

大模型以海量數據、龐大參數和強大算力為基礎，通過預訓練、微調、對齊、提示詞、RAG、工具調用和智能體等機制完成復雜任務。正確使用大模型，關鍵是理解能力邊界、清楚表達任務、連接可靠知識、建立驗證流程，并保持人的判斷與責任。

“點贊有美意，贊賞是鼓勵”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

MediaTea

專業的數字媒體、新媒體技術

1888文章數 80關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

數碼

房產

教育

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

人工智能通識課：大模型

剛剛，人類歷史上首位萬億美元富豪誕生！

SpaceX上市首日收漲19% 總市值報2.1萬億美元

SpaceX上市首日收漲19% 總市值報2.1萬億美元

歐洲恐韓？肉德維德？

一天4個瓜，肖戰熱巴最意外

萬億美元順差背后，透露這些信號

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

vivo X Fold6再預熱：天璣9500超能版+OriginOS 6 Fold

英國監管機構警告：亞馬遜、eBay仍在售可能致命的假冒手機充電器

海南最賺錢行業曝光！最快4年半，海口全款買三房！

家長成了“瘋女人”，被女兒作業搞崩潰，網友：太真實

標配激光雷達/雙動力可選昊鉑S600限時售17.99萬起