无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

<span class="js_title_inner">AI愛胡說八道?那就為數(shù)據(jù)「降噪」

0
分享至


在用戶「苦AI胡編亂造久矣」的今天,AI大模型該如何擺脫「垃圾進,垃圾出」的魔咒?

文 | 佘宗明

這年頭,比冷不丁梆梆就兩拳掌門人張八旦更能「一本正經(jīng)地胡說八道」的,是AI。

去年初,DeepSeek火了后,就有篇文章在網(wǎng)上熱傳,題目是「DeepSeek的胡編亂造,正在淹沒中文互聯(lián)網(wǎng)」。

愛胡編亂造的,不只是DeepSeek。如果說幻覺是病,那它稱得上是大模型的通病。

前不久,香港大學(xué)人工智能評估實驗室(AIEL)就發(fā)布報告稱,大模型普遍存在「嚴(yán)守指令但易虛構(gòu)事實」傾向,事實可靠性仍是全球大模型共同的短板。

更早之前,去年2月,清華大學(xué)新媒沈陽團隊的報告指出,市場上多個熱門大模型在事實性幻覺評測中幻覺率超過19%。

可以說,生成式AI將互聯(lián)網(wǎng)時代的「信息過載,事實稀缺」情形進行了幾何級放大。

那怎么讓AI離加冕「事實派」近些,離「滿嘴跑火車」遠(yuǎn)些?

打破大模型「GIGO(即垃圾進Garbage In,垃圾出Garbage Out)」魔咒,至關(guān)重要。

究其前提,就是要回歸「Clean Data > Big Model(高質(zhì)量數(shù)據(jù)優(yōu)于大模型)」的邏輯基點。

01/

為什么AI給出的答案總是「聽著像真的,其實是編的」?它怎么就這么愛胡編亂造?

去年9月,OpenAI在論文《為什么語言模型會產(chǎn)生幻覺》中對此做出了分析,我的總結(jié)是:因為大語言模型(LLM)「本性難移」。

大模型本質(zhì)上是個「隨機鸚鵡」,運行底層邏輯是「下一個詞元預(yù)測」(Next Token Prediction),這決定了,它是個貝葉斯預(yù)測大師,而非事實考證者。

其長處在于,能根據(jù)高頻統(tǒng)計關(guān)聯(lián)對強規(guī)律性知識(如語法規(guī)則、編程程式、基礎(chǔ)常識)進行快速「復(fù)現(xiàn)」。打個比方,你問它「法國首都是哪里」,它會因為「法國首都巴黎」幾個字在海量文本中以固定搭配高頻出現(xiàn),迅速回答「巴黎」。

問題是,世界上絕大多數(shù)知識都是出現(xiàn)頻次低的「長尾事實」(Long-tail Facts),如數(shù)字力場公眾號創(chuàng)立時間,就不是規(guī)律性知識。按圖靈獎得主楊立昆的說法,大模型是高級復(fù)讀機,「擅長模仿人類對話模式,卻不懂背后的邏輯與含義。」碰到這類問題,它經(jīng)常蒙圈。

由于訓(xùn)練目標(biāo)是「最大化生成文本序列的聯(lián)合概率」,不包含任何關(guān)于真實性的直接約束,對于不懂的問題,它傾向于編個像樣的,而非坦承其短地說「我不知道」。

大模型幻覺問題連著的,是訓(xùn)練機制問題,更是數(shù)據(jù)質(zhì)量問題——「真數(shù)據(jù)不夠,臟數(shù)據(jù)來湊」之下,必然會出現(xiàn)上游水源(輸入語料)污染導(dǎo)致下游水流(輸出結(jié)果)渾濁的情況。


▲很多大模型都跳不出「垃圾進,垃圾出」的魔咒。

都知道,大模型的三大要素是算法、算力和數(shù)據(jù),數(shù)據(jù)(語料)是源頭活水。前兩者可以靠優(yōu)化,后者主要靠積累。

隨著可用真實數(shù)據(jù)漸次枯竭,大模型如今普遍患上了高質(zhì)量數(shù)據(jù)饑渴癥。

不少大模型用合成數(shù)據(jù)解渴,想靠AI生成內(nèi)容來推倒自己撞上的那堵「數(shù)據(jù)墻」。

但這很可能導(dǎo)致「模型崩潰(Model Collapse)」——2024年7月,《自然》雜志就對此發(fā)出預(yù)警,稱隨著模型繼續(xù)在模型本身生成的越來越不準(zhǔn)確的文本上進行訓(xùn)練,這類遞歸循環(huán)會導(dǎo)致模型退化,AI很可能「在短短幾代內(nèi)將原始內(nèi)容迭代成無法挽回的胡言亂語。」

結(jié)果就是,AI「訓(xùn)」AI,越訓(xùn)越傻。

02 /

在幻覺問題上,「機器學(xué)習(xí)之父」邁克爾·歐文·喬丹曾表示,「單純依靠暴力計算(Brute Force)無法解決智能的根本問題,反而可能因為數(shù)據(jù)噪聲而產(chǎn)生系統(tǒng)性風(fēng)險。」

誠如此言,大模型幻覺帶來的破壞力不容小覷,一個程序bug也許會導(dǎo)致系統(tǒng)崩潰,但那是顯性的,大模型幻覺則頗具隱蔽性,隱蔽性會強化其危害性。

首先,在醫(yī)療診斷、法律咨詢、金融決策等邊際容錯率極低的領(lǐng)域,出現(xiàn)任何幻覺,都可能釀成嚴(yán)重后果,導(dǎo)致生命財產(chǎn)損失。

其次,AI胡編亂造容易導(dǎo)致錯誤信息謬種流傳,帶來社會空間信息污染,還消耗大眾的技術(shù)信任度,拉低許多人的接受意愿。

還有,流沙上沒法建大廈,幻覺問題若得不到有效控制,大模型的應(yīng)用落地也會受影響。

大模型的進化形態(tài),是成為能夠主動執(zhí)行復(fù)雜任務(wù)的智能體(Agent),但前置條件是可靠。畢竟,誰也無法安心委托那些可能會憑空捏造聯(lián)系人信息、杜撰財報數(shù)據(jù)的AI助理,來處理重要事務(wù)。


▲大模型幻覺帶來的危害不容小覷。

時至今日,幻覺已從技術(shù)瑕疵演變?yōu)锳I產(chǎn)業(yè)化應(yīng)用的現(xiàn)實掣肘。

當(dāng)此之時,正如芯片產(chǎn)業(yè)已走出「兆赫茲競賽」迷思那樣,AI行業(yè)也該跳出「數(shù)據(jù)規(guī)模崇拜」和「參數(shù)軍備競賽熱潮」。

從百億到千億再到萬億,過去幾年,大模型領(lǐng)域的參數(shù)規(guī)模持續(xù)被刷新,仿佛數(shù)據(jù)量越大模型性能就越好。

這在初期確實成立,參數(shù)也并非不重要,但隨著「更大的模型=更強的智能」等式在邊際效用遞減中失效,回歸數(shù)據(jù)質(zhì)量重要性高于數(shù)據(jù)集規(guī)模的理性判斷,正當(dāng)其時。中國最大的數(shù)據(jù)智能服務(wù)商明略科技提出「Clean Data > Big Model」,就意在于此。

要知道,現(xiàn)在AI行業(yè)已進入產(chǎn)業(yè)化落地階段,用戶(特別是企業(yè)級用戶)在意的不是參數(shù)數(shù)字,而是模型在實際任務(wù)中表現(xiàn)出的可用性、可靠性——他們需要的是「可信AI」。

而控制幻覺,就是「可信AI」價值凸顯期的決定性競爭維度。數(shù)據(jù)可信度也已取代數(shù)據(jù)集規(guī)模,成為大模型的核心競爭力。

03 /

正因來得普遍又極具危害,大模型幻覺不是個可以打個補丁的小bug,而是需要從系統(tǒng)層面去革新重構(gòu)的根本性問題。

知名AI科學(xué)家、斯坦福大學(xué)教授吳恩達提出的以數(shù)據(jù)為中心的AIData-Centric AI理念,就來得頗具針對性。他認(rèn)為,AI模型開發(fā)過程中,業(yè)界過分關(guān)注模型架構(gòu)的優(yōu)化,卻忽視了系統(tǒng)性地工程化數(shù)據(jù)質(zhì)量。「如果80%的機器學(xué)習(xí)工作是數(shù)據(jù)準(zhǔn)備,那么確保數(shù)據(jù)質(zhì)量應(yīng)該是團隊最重要的工作。」

「以數(shù)據(jù)為中心的AI」跟傳統(tǒng)的AI模型搭建范式「以模型為中心的AI(Model-centric AI)」有別,后者主要工作是改進模型參數(shù),前者主要目標(biāo)則是改善數(shù)據(jù)質(zhì)量——「AI教母」李飛飛、AI大神安德烈·卡帕斯此前做的,其實就與此相關(guān)。


▲兩種AI模型搭建范式的對照。

明略科技基于「Clean Data > Big Model」技術(shù)哲學(xué)系統(tǒng)性地發(fā)掘聚合跨領(lǐng)域的高可信信源,推出目前全球范圍內(nèi)最全面、最權(quán)威、最結(jié)構(gòu)化數(shù)據(jù)源知識庫——First Data,也與之呼應(yīng)。

需要看到的是,對很多企業(yè)來說,獲取干凈、權(quán)威、實時的數(shù)據(jù)比訓(xùn)練一個模型要難得多。畢竟,大量高價值的權(quán)威數(shù)據(jù)「沉睡」在政府網(wǎng)站深處、PDF報告或復(fù)雜的交互式圖表中,由于API接口眾多、格式各異、標(biāo)準(zhǔn)不一,很難被機器自動解析。

First Data擬收錄全球1000余個權(quán)威數(shù)據(jù)源(涵蓋國際組織、各國政府、頂級學(xué)術(shù)機構(gòu)),將分散、非標(biāo)、難復(fù)用的原始內(nèi)容,轉(zhuǎn)化為可追溯、可驗證、可引用的核心事實,不啻為大模型行業(yè)搭建了「可信數(shù)據(jù)源基礎(chǔ)設(shè)施」,它不直接提供「數(shù)據(jù)」,但能解決「數(shù)據(jù)去哪找」問題。

《自然》雜志提到,提升模型準(zhǔn)確性的重要途徑是,訪問原始數(shù)據(jù)源并在遞歸訓(xùn)練的模型中仔細(xì)過濾數(shù)據(jù)。

而First Data堅持100% URL驗證標(biāo)準(zhǔn),每個數(shù)據(jù)源都有完整文檔,確保數(shù)據(jù)源真實可用。這直接回應(yīng)了AI安全倫理范疇的「數(shù)據(jù)溯源(Data Provenance)」關(guān)切,能從源頭阻斷「幻覺引用」的可能性。

舉個例子,用戶問「2025年前三季度中國AI產(chǎn)業(yè)產(chǎn)值是多少?」通常情況下,AI會回憶訓(xùn)練數(shù)據(jù)再生成像樣答案;有了數(shù)據(jù)索引導(dǎo)航工具First Data后,AI則可以指引用戶前往權(quán)威信源處獲取相關(guān)數(shù)據(jù)——在此過程中,F(xiàn)irst Data會充分顧及數(shù)據(jù)調(diào)用與數(shù)據(jù)跨境傳輸安全,推薦合規(guī)可靠的權(quán)威網(wǎng)站,并提供文件獲取的逐步導(dǎo)航索引。

First Data的亮點不只是強調(diào)「數(shù)據(jù)溯源」,還有「權(quán)重分級」——那些數(shù)據(jù)源包含了訪問鏈接并標(biāo)注了API接口信息、更新頻率、覆蓋范圍,更引入了 「六大權(quán)威等級分類」的創(chuàng)新做法。

這無疑是有的放矢:信源跟信源之間也有可信度差異。按權(quán)威程度分級,可以凸顯高可信信源的優(yōu)先序。

就拿查詢「發(fā)展中國家經(jīng)濟數(shù)據(jù)」 來講,F(xiàn)irst Data會優(yōu)先推薦AI去世界銀行官網(wǎng)而非商業(yè)資訊公司報告找數(shù)據(jù),讓AI盡可能避免低質(zhì)量信息干擾。


▲First Data建立了結(jié)構(gòu)化元數(shù)據(jù)體系,還有權(quán)威等級分類。

舍此之外,開放開源也是First Data的醒目看點。1月28日,明略科技宣布正式開源First Data。這顯然是盤大棋。

從商業(yè)競爭角度看,此舉似乎有些「不值當(dāng)」,但若是從深遠(yuǎn)層面看,以目前最寬松的開源協(xié)議MIT協(xié)議開源,是利他以自利。

一方面,這能豐富權(quán)威數(shù)據(jù)庫。為了確保數(shù)據(jù)可信,Google Knowledge Graph此前通過語義搜索和NLP技術(shù)持續(xù)改進信息準(zhǔn)確性,F(xiàn)irst Data則能走得更遠(yuǎn)——依托開源社區(qū)協(xié)作跟透明溯源機制,它可以建立「分布式數(shù)據(jù)源賬本」。當(dāng)全球數(shù)據(jù)科學(xué)家都能參與審核、補充數(shù)據(jù)源時,其可信度會遠(yuǎn)高于單一企業(yè)維護的數(shù)據(jù)庫。

另一方面,這能帶來技術(shù)普惠。First Data開源就像針對模型幻覺流行病的數(shù)字疫苗接種計劃,讓AI行業(yè)切實受益。

04 /

毫無疑問,在用戶「苦AI胡編亂造久矣」的今天,AI行業(yè)需要可信數(shù)據(jù)底座。

而First Data建立的結(jié)構(gòu)化元數(shù)據(jù)體系,就以可靠數(shù)據(jù)為錨,為整個行業(yè)提供了對抗「模型崩潰」的參照系,也為企業(yè)級RAG應(yīng)用帶來了權(quán)威數(shù)據(jù)層的即插即用解決方案。

對很多企業(yè)而言,它們無需自己去搭建數(shù)據(jù)基礎(chǔ)設(shè)施,可以直接利用First Data構(gòu)建的權(quán)威數(shù)據(jù)源網(wǎng)絡(luò),搭建可信的AI應(yīng)用原型。

可以預(yù)見,有高質(zhì)量數(shù)據(jù)加持,很多AI產(chǎn)品也能在降低幻覺中提升「辦實事」能力,實現(xiàn)從ChatBot向智能代理的轉(zhuǎn)變,伴隨而至的,還有用戶信任的提升:當(dāng)AI推薦醫(yī)療方案引用的是權(quán)威醫(yī)學(xué)數(shù)據(jù)庫,預(yù)測經(jīng)濟走勢依據(jù)是官方結(jié)構(gòu)化數(shù)據(jù)時,大家自然更愿意采信。

著眼長遠(yuǎn)看,F(xiàn)irst Data開源的價值,還能朝填補全球數(shù)據(jù)源目錄拼圖中的「中國缺角」、為全球AI基礎(chǔ)設(shè)施打造貢獻「中國力量」兩個層面延伸。

長期以來,國外大模型由于缺乏一手、權(quán)威、結(jié)構(gòu)化的數(shù)據(jù)源,在被問到中國經(jīng)濟相關(guān)問題時,輸出的答案經(jīng)常并不標(biāo)準(zhǔn),使得很多人只能霧里看花、產(chǎn)生認(rèn)知偏差。

First Data項目代碼庫雖然本身不存儲、不包含、不直接提供任何原始數(shù)據(jù)文件,但收錄了公開權(quán)威數(shù)據(jù)源,還采用了中英雙語元數(shù)據(jù)設(shè)計,可提供相關(guān)數(shù)據(jù)的推薦查詢路徑。

這么一來,用戶通過大模型的指引,在權(quán)威信源處按圖索驥獲得可信數(shù)據(jù)后,勢必能夠提升全球使用者及AI模型對中國經(jīng)濟社會發(fā)展的理解深度,讓更多人能直接準(zhǔn)確地了解到中國經(jīng)濟的真實脈動。

跟西方科技巨頭傾向于構(gòu)建封閉的數(shù)據(jù)護城河不同,中國企業(yè)將全球最全權(quán)威數(shù)據(jù)源知識庫開源,就如同對「中國開源VS美國閉源」模型發(fā)展路徑里「中國路線」的致敬,也體現(xiàn)出了鮮明的價值取向:AI時代,數(shù)據(jù)可以是公共的資源,而非壟斷的籌碼。

從Linux到TCP/IP,歷史表明,真正的數(shù)字基礎(chǔ)設(shè)施都是開源的,只有開源,才能形成生態(tài),只有形成生態(tài),才能定義標(biāo)準(zhǔn)。中國企業(yè)以開源方式為全球AI行業(yè)完善貢獻「中國維度」的數(shù)據(jù)標(biāo)準(zhǔn),也是在把握主動權(quán)。

而這些價值的要義,就在于「真實」二字。

在今天,信息嚴(yán)重過載,事實極度稀缺,已構(gòu)成了我們所處的信息環(huán)境。我們比任何時候都更需要可靠數(shù)據(jù)錨點,確保AI不是胡編亂造,而是言必有據(jù)。

First Data給出的解法便是:若AI愛胡編亂造,那就為數(shù)據(jù)「降噪」。到頭來,其開源的深層價值,與其說是提供了大量權(quán)威數(shù)據(jù)源的工具箱,不如說是申明了某種技術(shù)倫理——

AI的核心價值點,不在能說得多像,在能說得多準(zhǔn);不在能生成多少內(nèi)容,而在能創(chuàng)造多少可信價值。故而,數(shù)據(jù)可信度優(yōu)于數(shù)據(jù)規(guī)模,信息可靠性重過生成流暢性。

真善美,真是善的前提。AI向善,先要向真。

?作者 | 佘宗明

?運營 | 李玩

轉(zhuǎn)載須經(jīng)許可

廣告合作請聯(lián)系微信號:rabgogo88

或手機號:18810070968


敬請關(guān)注

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
森保一劍指冠軍?日本豪華大名單曝光,4-2-4 狂攻陣型引熱議

森保一劍指冠軍?日本豪華大名單曝光,4-2-4 狂攻陣型引熱議

十點體壇
2026-06-13 22:59:38
網(wǎng)傳嘉定100多萬的二手房被中介“吃差價”74萬?!鏈家發(fā)布聲明

網(wǎng)傳嘉定100多萬的二手房被中介“吃差價”74萬?!鏈家發(fā)布聲明

尚虹橋
2026-06-13 19:23:04
中國公開賽戰(zhàn)報:連爆大冷!2位中國00后淘汰世界亞軍,塔猜亞3-6

中國公開賽戰(zhàn)報:連爆大冷!2位中國00后淘汰世界亞軍,塔猜亞3-6

球場沒跑道
2026-06-14 07:08:18
百歲高僧:我見過最安詳?shù)乃劳觯且晃粡膩聿徽J(rèn)識字的老農(nóng)婦

百歲高僧:我見過最安詳?shù)乃劳觯且晃粡膩聿徽J(rèn)識字的老農(nóng)婦

千秋文化
2026-03-20 20:16:17
黃仁勛說清穿皮夾克原因,17歲后全靠老婆買衣服,30度高溫也不脫

黃仁勛說清穿皮夾克原因,17歲后全靠老婆買衣服,30度高溫也不脫

大廠編外實習(xí)生
2026-06-12 17:45:33
"都爬我身上了!"這棟樓居民深夜尖叫,全樓崩潰…

"都爬我身上了!"這棟樓居民深夜尖叫,全樓崩潰…

看看新聞Knews
2026-06-12 22:39:11
疑阿里員工爆料:所在部門50%已離職,N+1到手轉(zhuǎn)行跨境電商

疑阿里員工爆料:所在部門50%已離職,N+1到手轉(zhuǎn)行跨境電商

六子吃涼粉
2026-06-12 11:13:32
NBA球星哈登被捕

NBA球星哈登被捕

都市快報橙柿互動
2026-06-14 08:47:24
2027款豐田賽那SIENNA上市 售29.88萬元起

2027款豐田賽那SIENNA上市 售29.88萬元起

車質(zhì)網(wǎng)
2026-06-12 13:03:05
斷糧斷水快撐不住了,菲方對中國喊話:再不撤就開打,必有一戰(zhàn)

斷糧斷水快撐不住了,菲方對中國喊話:再不撤就開打,必有一戰(zhàn)

越過海面
2026-06-12 23:14:09
武斗留痕,巴爾韋德變“疤”爾韋德

武斗留痕,巴爾韋德變“疤”爾韋德

體壇周報
2026-06-13 20:18:28
澳網(wǎng)法網(wǎng)雙決賽不入,辛納成三十余年來球王第三人!

澳網(wǎng)法網(wǎng)雙決賽不入,辛納成三十余年來球王第三人!

網(wǎng)球之家
2026-06-13 22:27:10
20歲真人秀二代涉家暴被捕,姐姐因害怕報警

20歲真人秀二代涉家暴被捕,姐姐因害怕報警

時光慢旅人
2026-06-13 00:48:49
現(xiàn)身了!上海外援懷特塞德更新社媒:沒有任何針對我的阻礙能得逞

現(xiàn)身了!上海外援懷特塞德更新社媒:沒有任何針對我的阻礙能得逞

狼叔評論
2026-06-13 12:58:36
曼聯(lián)兩人已申請轉(zhuǎn)會,夏窗被賣成必然!奧納納抱怨阿莫林毀其前途

曼聯(lián)兩人已申請轉(zhuǎn)會,夏窗被賣成必然!奧納納抱怨阿莫林毀其前途

羅米的曼聯(lián)博客
2026-06-13 09:55:25
全市場:尤文接近簽下大馬丁,年薪500萬歐

全市場:尤文接近簽下大馬丁,年薪500萬歐

懂球帝
2026-06-13 17:36:11
阿奴諾比補籃入選紐約體育史前五

阿奴諾比補籃入選紐約體育史前五

體壇周報
2026-06-14 01:26:23
首冠出爐!國乒4項顆粒無收,張本沖擊雙冠,韓國男單包攬冠亞軍

首冠出爐!國乒4項顆粒無收,張本沖擊雙冠,韓國男單包攬冠亞軍

國乒二三事
2026-06-14 06:42:29
97%國產(chǎn)化率還嫌不夠?張雪:剩下那3%,是給日本意大利留面子!

97%國產(chǎn)化率還嫌不夠?張雪:剩下那3%,是給日本意大利留面子!

小許論事
2026-06-13 15:48:10
牡丹江大學(xué)通報“強降雨致校區(qū)內(nèi)澇”:未造成人員傷亡及財產(chǎn)損失

牡丹江大學(xué)通報“強降雨致校區(qū)內(nèi)澇”:未造成人員傷亡及財產(chǎn)損失

界面新聞
2026-06-14 09:43:08
2026-06-14 11:43:00
數(shù)字力場 incentive-icons
數(shù)字力場
抵抗熵增,打撈有趣。
594文章數(shù) 61040關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風(fēng)報信

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細(xì)節(jié)

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細(xì)節(jié)

體育要聞

美國4比1巴拉圭:這統(tǒng)治力真是美國隊?!

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經(jīng)要聞

金價跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

深藍(lán)S07華為乾崑激光版增程車型上市 限時15.49萬元起

態(tài)度原創(chuàng)

藝術(shù)
游戲
健康
旅游
家居

藝術(shù)要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

立省30%!《明末:淵虛之羽》開啟Steam限時折扣

老人、小孩、孕婦,吃粽子有啥風(fēng)險

旅游要聞

西南最大人工湖,203個島嶼拼出一個“壽”字也太神奇了!

家居要聞

空間微調(diào) 移形換境

無障礙瀏覽 進入關(guān)懷版