在AI技術飛速發展的2026年,各類專業術語層出不窮。從ChatGPT到智能體,從RAG到MCP,這些縮寫和概念讓很多朋友都有了些許困惑,本文將通過通俗易懂的語言,為你系統梳理AI領域的核心術語,幫助你快速建立AI領域各類專業名詞的認知。
![]()
第一章:基礎概念-AI的基本理解
1.1 人工智能(AI)
人工智能(Artificial Intelligence,簡稱AI)是讓計算機模擬、延伸和擴展人類智能的技術。簡單來說,就是讓機器能夠像人一樣「思考」和「學習」。從早期的棋類對弈程序到如今的ChatGPT,都是人工智能的體現。
1.2 機器學習(ML)
機器學習(Machine Learning,簡稱ML)是AI的核心分支,指計算機系統從數據中自動學習和改進的技術。就像孩子通過觀察學習認識動物一樣,機器學習讓計算機通過分析大量數據來發現規律、做出預測,而無需人類逐一編寫規則。
1.3 深度學習(DL)
深度學習(Deep Learning,簡稱DL)是機器學習的一個進階領域,使用多層神經網絡來模擬人腦處理信息的方式。深度學習在圖像識別、語音識別等領域取得了突破性進展,是現代AI技術的重要支柱。
1.4 神經網絡(NN)
神經網絡(Neural Network,簡稱NN)是受人腦啟發的數學模型,由大量「神經元」節點通過權重連接組成。想象一個由成千上萬個小燈泡組成的網絡,每個燈泡的亮暗程度代表某種特征,綜合起來就能識別圖像或理解語言。
1.5 大語言模型(LLM)
大語言模型(Large Language Model,簡稱LLM)是具有龐大參數量的深度學習模型,能夠理解和生成人類語言。GPT、Claude、Llama等都是典型的大語言模型。參數越多,模型通常越「聰明」,但也需要更多的計算資源。
1.6 通用人工智能(AGI)
通用人工智能(Artificial General Intelligence,簡稱AGI)是具有人類同等智能的AI系統,能夠像人類一樣在各種領域靈活思考和學習。目前的AI大多是「窄人工智能」,只在特定任務上表現出色,AGI仍是AI研究的終極目標。
第二章:模型架構-AI的大腦
2.1 Transformer架構
Transformer是當前AI領域最重要的架構之一,2017年由Google提出。它通過「注意力機制」讓模型能夠同時關注輸入的所有部分,大幅提升了處理長文本的能力。GPT、BERT等著名模型都是基于Transformer構建的。
2.2 注意力機制(Attention)
注意力機制讓AI學會「重點關注」。就像人類閱讀時會重點關注關鍵詞一樣,這個機制讓模型能夠識別輸入中最相關的信息,大幅提升翻譯、對話等任務的效果。
2.3 卷積神經網絡(CNN)
CNN是處理圖像的核心架構,能夠自動識別圖像中的邊緣、紋理、形狀等特征。從人臉識別到醫學影像分析,CNN是計算機視覺的基礎技術。
2.4 循環神經網絡(RNN)
RNN專為處理序列數據設計,能夠記憶之前的信息來理解上下文。RNN是自然語言處理和語音識別的重要基礎。
2.5 長短期記憶網絡(LSTM)
LSTM是RNN的升級版,解決了RNN難以記住長期信息的缺陷。它像人腦一樣,有「長期記憶」和「短期記憶」區域,能更好地處理長文本和長時間序列。
2.6 生成對抗網絡(GAN)
GAN通過兩個神經網絡相互「對抗」來學習:一個負責生成內容,一個負責判斷真假。這種技術被廣泛用于AI繪畫、人臉合成等生成式任務。
2.7 擴散模型(Diffusion Model)
擴散模型是當前AI繪畫的主流技術,通過逐步「去噪」的方式從隨機噪聲中生成清晰圖像。Stable Diffusion、DALL-E等都是基于擴散模型。
第三章:訓練技術-讓AI學會技能
3.1 預訓練(Pre-training)
預訓練是在大規模通用數據上訓練模型的過程,讓模型學習語言的基本規律和世界知識。這就像學生的基礎教育階段,學的是通用知識和能力。
3.2 微調(Fine-tuning)
微調是在預訓練基礎上,用特定領域數據進一步訓練模型。就像醫學生完成基礎教育后,還需要專科培訓才能成為專業醫生。
3.3 遷移學習(Transfer Learning)
遷移學習是把在一個領域學到的知識應用到另一個領域的技術。比如,會下棋的AI可以借鑒其中的策略思維來學習其他游戲。
3.4 人類反饋強化學習(RLHF)
RLHF是通過人類反饋來調整AI行為的技術。AI生成回答后,人類評估其好壞,AI據此學習如何產生更符合人類期望的輸出。ChatGPT之所以「會聊天」,RLHF功不可沒。
3.5 低秩適配(LoRA)
LoRA是一種高效的模型微調技術,通過只更新少量參數來實現定制化,大大降低了微調的計算成本。就像給一臺大機器更換關鍵零件,而不是整臺機器重建。
第四章:應用領域-AI的使用場景
4.1 自然語言處理(NLP)
NLP是讓計算機理解、生成和處理人類語言的技術。機器翻譯、智能客服、情感分析等都是NLP的應用。
4.2 計算機視覺(CV)
計算機視覺是讓計算機「看懂」圖像和視頻的技術。人臉識別、自動駕駛、醫學影像診斷等都依賴于CV技術。
4.3 光學字符識別(OCR)
OCR能夠將圖片中的文字轉換為可編輯的文本。文檔掃描、車牌識別、名片整理等都靠OCR技術實現。
4.4 自動語音識別(ASR)
ASR將語音轉換為文字,是智能音箱、語音助手、會議記錄等應用的基礎技術。
4.5 語音合成(TTS)
TTS將文本轉換為自然語音,讓機器能夠「說話」。導航播報、有聲書、虛擬主播等都依賴TTS技術。
第五章:智能體配置-Skills與工作流
5.1 什么是AI智能體(Agent)?
AI智能體是能夠自主感知環境、做出決策并執行動作的智能系統。與簡單的問答機器人不同,智能體具備規劃、記憶、工具使用等能力,可以完成復雜的多步驟任務。
5.2 Skills(技能)詳解
Skills是AI智能體平臺(如Coze扣子)中的核心概念,指智能體具備的各種功能配置。良好的Skills配置就像給智能體裝備各種工具,讓它能夠完成特定任務。Skills通常包括:
插件(Plugin):智能體的「工具箱」,提供天氣查詢、網頁搜索、文檔處理等擴展功能
工作流(Workflow):將多個步驟組合成自動化流程,實現復雜任務的編排
知識庫(Knowledge Base):存儲專業知識,讓AI能夠回答專業領域的問題
記憶(Memory):讓智能體記住用戶偏好和對話歷史
變量(Variables):存儲和傳遞信息的數據容器
觸發器(Trigger):設置定時任務或條件觸發的自動化規則
5.3 插件(Plugin)是什么?
插件是智能體的能力擴展模塊。一個插件可以包含一個或多個API功能。比如添加天氣插件后,智能體就能查詢各地天氣;添加地圖插件后,就能提供導航服務。Coze平臺提供了700+官方插件,用戶也可以自定義插件。
5.4 工作流(Workflow)是什么?
工作流是將復雜的業務流程可視化編排的功能。就像流水線上的各個環節有序配合,工作流讓AI能夠按步驟執行復雜任務。比如一個「小紅書文案助手」的工作流可能是:獲取熱點鏈接→提取內容→分析結構→生成文案→優化潤色。
5.5 知識庫(Knowledge Base)是什么?
知識庫是智能體的「私人圖書館」,存儲企業或個人的專業文檔。智能體回答問題時,會先從知識庫中檢索相關內容,確保回答的專業性和準確性。知識庫+AI生成=RAG(檢索增強生成),這是解決AI「一本正經胡說八道」問題的關鍵技術。
5.6 提示詞工程(Prompt Engineering)
提示詞是給AI的指令,好的提示詞能讓AI更準確地理解任務。設計提示詞就像寫崗位說明書,需要明確:角色定位(你是誰)、核心任務(做什么)、行為規范(怎么做)、輸出格式(做成什么樣)。
第六章:AI領域熱門技術概念
6.1 RAG(檢索增強生成)
RAG將信息檢索與AI生成相結合。當用戶提問時,AI先從知識庫檢索相關信息,再結合檢索結果生成回答。這就像一個既有豐富知識儲備,又善于查閱資料的助手。
6.2 檢索增強生成核心技術:Embedding與向量數據庫
Embedding將文字、圖像等轉換為「向量」——一種數學表示,讓語義相似的內容在向量空間中距離相近。向量數據庫則專門存儲和檢索這些向量,實現快速的相似性搜索。
6.3 模型上下文協議(MCP)
MCP是Anthropic于2024年推出的開放協議,被稱為AI的「USB-C接口」。它標準化了AI與外部工具、數據的連接方式,讓開發者只需開發一次,就能對接多種AI系統。
6.4 函數調用(Function Calling)
函數調用讓AI能夠執行實際操作,而不只是生成文字。AI可以調用預設的函數來完成查天氣、發郵件、查數據庫等任務,實現從「會說話」到「會辦事」的跨越。
6.5 智能體協作協議(A2A)
A2A是讓不同AI智能體之間能夠相互協作通信的協議。就像不同公司的員工需要統一的工作語言一樣,A2A讓各種AI智能體能夠協同工作。
6.6 智能體增強RAG(Agentic RAG)
Agentic RAG將智能體能力融入RAG系統,讓檢索過程更加智能。AI能夠自主規劃檢索策略、判斷是否需要補充信息、對結果進行反思驗證。
第七章:大模型的核心參數
7.1 Token(詞元)
Token是AI處理文本的基本單位。英文中約4個字符=1個Token,中文約1-2個漢字=1個Token。模型的輸入輸出都按Token計費。理解Token有助于估算使用成本。
7.2 上下文窗口(Context Window)
上下文窗口是模型一次能處理的最大Token數量,決定了AI能理解的「記憶范圍」。GPT-4 Turbo支持128K tokens,可以一次讀完一整本書。
7.3 溫度(Temperature)
溫度參數控制AI輸出的隨機性。低溫度(0.2左右)輸出更穩定一致,適合需要準確性的任務;高溫度(0.8左右)輸出更有創意,適合需要想象力的任務。
7.4 幻覺(Hallucination)
幻覺是指AI生成看似合理但實際錯誤的內容。這是大模型的主要缺陷,可能誤導用戶。解決幻覺的方法包括RAG檢索、微調、降低溫度、使用思維鏈提示等。
7.5 思維鏈(Chain of Thought,CoT)
CoT是一種提示技術,讓AI在回答前先展示推理步驟。這不僅有助于復雜問題的解答,也讓用戶能夠理解AI的思考過程。
第八章:AI的評估與基準
8.1 MMLU-綜合知識測試
MMLU涵蓋57個學科領域的綜合性測試,是評估大模型知識水平的重要基準。分數越高,說明模型的知識儲備越豐富。
8.2 HellaSwag-常識推理
HellaSwag測試AI的常識推理能力,要求模型選擇最合理的句子結尾。這類測試能反映模型的日常思維能力。
8.3 HumanEval-代碼能力
HumanEval包含164道編程題,是評估AI代碼生成能力的權威基準。
8.4 GSM8K-數學推理
GSM8K收錄小學數學題,測試AI的多步驟數學推理能力。
8.5 基準測試(Benchmark)
基準測試是用標準化數據集評估AI性能的方法。就像考試有標準試卷一樣,AI的「期末考試」就是各種基準測試。
第九章:開發工具與平臺
9.1 TensorFlow與PyTorch
TensorFlow(Google開發)和PyTorch(Meta開發)是兩個最流行的深度學習框架,提供構建和訓練AI模型的工具。PyTorch因靈活易用在學術界更受歡迎,TensorFlow在工業部署中應用廣泛。
9.2 Hugging Face
Hugging Face是全球最大的AI開源社區,提供數千個預訓練模型和豐富的工具庫。其Transformers庫是NLP領域最流行的工具。
9.3 LangChain
LangChain是構建LLM應用的開發框架,提供模塊化組件來連接大模型與外部工具、數據。相當于AI應用的「樂高積木」。
9.4 vLLM/Ollama/LM Studio
這些是大模型推理部署工具。vLLM專注于高吞吐量服務,Ollama支持本地簡易部署,LM Studio提供桌面端LLM運行工具。
9.5 Coze扣子
Coze是字節跳動推出的智能體開發平臺,支持零代碼構建AI智能體。提供插件、工作流、知識庫等豐富功能,讓非技術人員也能快速搭建AI應用。
第十章:主流AI產品一覽
10.1 GPT系列(OpenAI)
GPT是OpenAI開發的生成式預訓練模型,GPT-4是其最新版本。ChatGPT就是基于GPT的對話產品。
10.2 Claude(Anthropic)
Claude由AI安全公司Anthropic開發,以安全和道德著稱,采用「憲法式AI」訓練方法。
10.3 Gemini(Google)
Gemini是Google的多模態大模型,能夠處理文本、圖像、音頻、視頻等多種類型數據。
10.4 Llama(Meta)
Llama是Meta開發的開源大模型,推動了開源AI生態的發展,其最新版本Llama 3已開源可商用。
10.5 Stable Diffusion
Stable Diffusion是開源的AI圖像生成模型,可以在消費級GPU上運行,降低了AI繪畫的門檻。
10.6 Midjourney/DALL-E/Imagen
這些是各公司推出的AI圖像生成產品,各具特色:Midjourney以藝術風格見長,DALL-E由OpenAI推出,Imagen來自Google。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.