大模型的Token到底是什么?一句話給你點透就是:Token其實就是大模型“理解”這個世界的最小單位。就像我們人類理解世界靠的是各種“概念”一樣,大模型理解世界靠的就是這個token。你可以把它想象成:大模型不是在處理某個“字”,而是在處理各種“有意義的片段”。
![]()
第一、 Token它不是字,而是一種“語義原子。
我們可以將一個token理解為:
? 一個英文單詞(比如“hello”);
?一個中文詞語(比如“你好”);
?一個詞的一部分(比如“unbelievable”可能被拆成“un"+"believ"+"able”);
?某一個標點符號;
★小結:大模型訓練時,在自然語言處理領域中,機器學習模型通常以Token作為其輸入單位,人類就把海量文本切分成這些“語義原子”喂給它,然后讓模型學習它們之間的關系。所以你也可以理解為模型訓練不是在“背書”,而是在學習這些token之間的各種“連接規律”。
![]()
第二、可以把Token理解為它是AI世界的“貨幣”。
1、在 AI 世界里,token就像一種計量貨幣。——1 個 token大約等于 4-5 個英文字符,100 萬token相當于約 75 萬個單詞,也就是一本 3500 頁的大部頭書的樣子。
2、其實我們用AI的成本一直在下降。比較同級別模型的每百萬 token價格,在短短兩年內下降了 99.7%。隨著科技的發展和AI技術的逐步成熟,相信以后的AI技術的服務費用會越來越低。
★小結:這就像電費一樣。在工業革命時期,19世紀初人們獲得同樣照明的成本是現在的照明成本400倍之多。同理,AI以后也會從“奢侈品”變成人們生活中的“基礎設施”。
![]()
第三、以目前的情況來看,在用token的計量下,中文比英文“更貴”。
這個可能很多人沒有注意到:
通常1個中文詞語、1個英文單詞、1個數字或1個符號計為1個token。一般情況下,模型中token和字數的換算比例大致如下:1個英文字符 ≈ 0.3個token。1個中文字符 ≈ 0.6個token。
因為英文用空格分詞很自然,中文需要更復雜的分詞算法。通常token如果增加一倍,那么計算量會變為從前的四倍,這種算力增長不是線性的,而是呈現平方式的增長,所以理論上,同樣一個問題,處理中文比處理英文,在大語言模型上通常要消耗更多算力。在GPT-3推出時,1000個token相當于750個英文單詞,或者500個漢字。
我們不能忽略一個事實,就是在全球人工智能領域,中國的研發實力是絕對第二的,遠遠領先于第三名,又因為這個絕對第二名的母語是中文,所以針對中文消耗更多token的問題也能做大幅優化。
![]()
★小結:
?寫提示詞時,英文通常比中文更“經濟,但中文可能在表達上更精準。
?在計算成本時,中文內容要預留更多token預算。
?當AI在“思考”時,它不是在“思考字”,而是在“處理token之間的各種關系。
![]()
總結:Token的本質,是人類語言被“數字化”后的最小載體。大模型的智能,就藏在這些token之間錯綜復雜的關系連接網絡里。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.