无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

到底什么是All-Reduce、All-to-All?

0
分享至

我們在看AIGC大模型、算力集群相關文獻的時候,經常會看到“ All-Reduce ”、“ All-to-All ”這樣的詞組。

大家知道它們是什么意思嗎?

故事還是要從英偉達說起。

2014年,為了取代傳統的PCIe協議,英偉達推出了全新的NVLINK技術,用于GPU和GPU之間的點對點高速互聯。

后來,NVLINK技術不斷迭代。 2018年,為了實現8顆GPU之間的互連,英偉達又發布了NVSwitch 1.0。

在搗鼓GPU互連技術的過程中,英偉達還發明了一個名叫 NCCL(NVIDIA Collective Communications Library)的集合通信庫。

NCCL支持多種編程語言和網絡,在算法層面提供了豐富的外部API,可以大幅提升通信網絡性能,也可以讓GPU之間的通信設計變得更簡單。

在NCCL中,定義了兩種通信模式:

1、點對點通信(Point to point communication,P2P)

2、集合通信(Collective communication,CC)

點對點大家一看就懂,就是兩個點之間進行通信。一個是Sender,一個是Receiver。

什么是集合通信呢?是指一組(多個)節點內進行通信。在我們傳統通信里,就是點到多點,多點到多點,涉及到組網(網狀、星狀、環狀、mesh等)那種。

NCCL還定義了一些計算節點之間數據交換的基本操作模式,并將其命名為——“通信原語(也有寫作通信元語

這些通信原語包括:Broadcast、Scatter、Gather、All-Gather、Reduce、All-Reduce、Reduce-Scatter、All-to-All等。

沒錯,All-Reduce和All-to-All,就是其中之二。

這些通信原語是構建復雜通信行為的“原子操作”。現在所有復雜的AI算力集群,內部通信都是基于這些通信原語。它們極大地提升了并行計算的效率和便利性。

接下來,我們就逐個解釋一下,這些通信原語的意思。

Broadcast(1對多的廣播

這個最簡單。當主節點執行Broadcast操作時,數據會從主節點發送至其他所有節點。

Broadcast是一個典型的分發、散播行為。在分布式機器學習中,Broadcast常用于網絡參數的初始化。

Scatter(1對多的發散)

Scatter也是一種分發、散播行為。它也是 將主節點的數據發送至其他所有節點。只不過, Broadcast發送的是完整數據,而 Scatter是將數據進行切割后,再分發,就像分生日蛋糕。

Gather(多對1的收集)

Gather,是將多個sender(發送節點)上的數據收集到單個節點上,可以理解為反向的Scatter。

All-Gather(多對多的收集)

Gather是多個到一個,All-Gather是多個到多個。

All-Gather是將多個sender(發送節點)上的數據收集到多個節點上。它相當于多個Gather操作。或者說,是一個Gather操作之后,跟著一個Broadcast操作。

Reduce(多對1的規約)

Reduce的英文意思是“減少、降低”。在集合通信里,它表示“規約”運算,是一系列簡單運算操作(包括:SUM、MIN、MAX、PROD、LOR等)的統稱。

經常用Excel表格的童鞋,對這些簡單運算應該不陌生。例如SUM,就是求和。MIN,就是找出最小值。

其實說白了,Reduce就是:輸入多個數,執行操作后,得到更少的數(例如1個數)。

下面這個,就是以ReduceSum(求和規約)為例:

All-Reduce(多對多的規約)

All-Reduce,這個是我們在文章開頭提到的,AI領域非常常見的一個詞組。

在大模型訓練中,經常會用到數據并行(DP)這個并行方式。里面就有AIl Reduce這個關鍵操作。

我們以All Reduce Sum(求和)為例:

首先,對所有節點進行數據收集。然后,對數據進行求和。再然后,把結果重新發回給所有節點。

在大模型訓練中,Server GPU節點收集的數據,就是各個Worker GPU節點計算得出的“梯度”。求和之后再發回的過程,是“更新梯度”。看不懂沒關系,以后小棗君會再介紹。

Reduce-Scatter(組合的規約與發散)

Reduce-Scatter稍微有點復雜、燒腦。

它是先歸約(Reduce),再分散(Scatter)。具體來說:

首先,在所有參與計算的GPU節點上,對位于相同位置或索引的數據塊執行指定的規約運算(例如求和SUM)。

接著,將規約后的完整結果按維度切分,并將不同的數據塊分發給各個節點。最終,每個節點只得到整個規約結果的一部分,而不是全部。

簡單來說,它先對所有數據進行“匯總計算”,然后再將計算好的結果“分散下發”。

All-to-All(多對多的全互連)

AIl-to-AII也是AI領域出現頻率很高的一個詞組。它是全交換操作,可以讓每個節點都獲取其他節點的值。

在使用All-to-All時,每一個節點都會向任意一個節點發送消息,每一個節點也都會接收到任意一個節點的消息。每個節點的接收緩沖區和發送緩沖區都是一個分為若干個數據塊的數組。

All-to-All的具體操作是:將節點i的發送緩沖區中的第j塊數據發送給節點j。節點j將接收到的來自節點i的數據塊,放在自身接收緩沖區的第i塊位置。

All-to-All與All-Gather相比較,區別在于:All-Gather操作中,不同節點向某一節點收集到的數據是完全相同的。而在All-to-All中,不同的節點向某一節點收集到的數據是不同的。在每個節點的發送緩沖區中,為每個節點都單獨準備了一塊數據。

上面這個圖,大家如果學過工程數學的話,就會發現,它就是一個矩陣倒置。或者說,是Excel里的行列倒轉。

All-to-All的核心目標是重分布。它不進行聚合運算,而是專注于在不同節點間重新分布數據塊。

以后小棗君會給大家介紹, All-to-All 操作在大模型訓練中的混合并行策略里至關重要。例如, 當需要從數據并行組切換到模型并行組時,All-to-All可以高效地重組數據。

Ring-base collective(基于環的集合)

最后還要提一個有趣的結構——環(Ring)。

Ring-base collective是將所有的通信節點通過首位相連形成一個單向環,數據在環上依次傳輸。

傳輸方式有兩種,一種是一次性傳輸全部,還有一種,是對數據進行切割,然后分別發送。

All-Reduce里有一種Ring All-Reduce(環形全規約)算法。它是通過組合Reduce-Scatter和All-Gather兩個操作來實現的。

Ring All-Reduce算法分為兩個階段:

第一階段,將N個worker分布在一個環上,并且把每個worker的數據分成N份。

對于第k個worker,這個worker會把第k份數據發給下一個worker,同時從前一個worker收到第k-1份數據。

然后,第k個worker會把收到的第k-1份數據和自己的第k-1份數據整合,再將整合的數據發送給下一個worker。

以此循環N次之后,每一個worker都會包含最終整合結果的一份。

第二階段,每個worker將整合好的部分發送給下一個worker。worker在收到數據之后,更新自身數據對應的部分即可。

很顯然,這種環形算法可以解決傳統All-Reduce中Server節點的能力瓶頸問題。

最后的話

好啦,以上就是常見通信原語的具體工作原理。

AI大模型訓練推理任務,是由海量的GPU共同完成的。而這些GPU之間的通信,就是基于上面這些通信原語模型。

下一期,小棗君會詳細介紹一下大模型訓推任務中的并行計算方式,以及這些通信原語究竟是如何運用于不同的并行計算方式中。

敬請關注!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美伊協議何時簽署,特朗普說14日,伊朗否認

美伊協議何時簽署,特朗普說14日,伊朗否認

界面新聞
2026-06-14 06:57:42
14天的冷淡期已過!中國不再給機會,欺負海外中企的荷蘭要遭殃

14天的冷淡期已過!中國不再給機會,欺負海外中企的荷蘭要遭殃

他想要很多很多的夢
2026-06-12 05:32:19
成都蛋烘糕婆婆:配合拍視頻1000一條,否則追究相關法律責任

成都蛋烘糕婆婆:配合拍視頻1000一條,否則追究相關法律責任

映射生活的身影
2026-06-13 19:55:10
為何日本面積那么小,還能住下1.24億人,且家家都是獨棟?

為何日本面積那么小,還能住下1.24億人,且家家都是獨棟?

抽象派大師
2026-05-22 16:51:49
“不理解但尊重”,家長打扮粉嫩幼態送娃上學,網友:很不得體

“不理解但尊重”,家長打扮粉嫩幼態送娃上學,網友:很不得體

蝴蝶花雨話教育
2026-06-03 00:05:12
鄭麗文走出機場那刻,怕是這輩子都沒見過這種陣仗。

鄭麗文走出機場那刻,怕是這輩子都沒見過這種陣仗。

果媽聊娛樂
2026-06-07 09:51:32
70到80歲這10年,別跟任何人,包括你的老伴、子女,分享這兩件事

70到80歲這10年,別跟任何人,包括你的老伴、子女,分享這兩件事

心理觀察局
2026-06-03 06:24:04
雷鋒因公犧牲后,宋任窮質問:雷鋒為何沒被提干部?呂青一語道破

雷鋒因公犧牲后,宋任窮質問:雷鋒為何沒被提干部?呂青一語道破

舊史新譚
2026-06-13 05:34:49
巴西球迷:就算國家有再多問題,當巴西隊比賽時人們就會忘記一切

巴西球迷:就算國家有再多問題,當巴西隊比賽時人們就會忘記一切

懂球帝
2026-06-14 05:13:09
上海高架跑步男被罰,網友:這操作看不懂

上海高架跑步男被罰,網友:這操作看不懂

熱搜摘要官
2026-06-14 00:55:08
A股:緊急提醒2.5億股民!從明天6月15日起,A股或迎來更大級別變盤?

A股:緊急提醒2.5億股民!從明天6月15日起,A股或迎來更大級別變盤?

趨勢清風俠
2026-06-14 09:01:00
白百何又去西藏了旅行,這次累得拿中藥癱椅子上,45碼大腳亮了

白百何又去西藏了旅行,這次累得拿中藥癱椅子上,45碼大腳亮了

一個小豹子
2026-06-12 15:49:11
南京一大學生凌晨溺亡河道,官方回應

南京一大學生凌晨溺亡河道,官方回應

新浪財經
2026-06-13 19:11:43
高考剛結束就往醫院跑?大廳走廊擠滿女生,家長無奈:根本攔不住

高考剛結束就往醫院跑?大廳走廊擠滿女生,家長無奈:根本攔不住

奇思妙想草葉君
2026-06-11 21:08:40
江青自殺前,在獄中寫下2個遺囑,李訥卻拒不答應,這是為何?

江青自殺前,在獄中寫下2個遺囑,李訥卻拒不答應,這是為何?

文史季季紅
2026-06-13 17:55:03
胰島“禍首”被揪出!是白糖的六倍,醫生:吃得越多,血糖越失控

胰島“禍首”被揪出!是白糖的六倍,醫生:吃得越多,血糖越失控

醫學科普匯
2026-06-11 21:20:08
菲律賓地震第4天,美日還是沒動作,菲外長對華發聲,態度很強硬

菲律賓地震第4天,美日還是沒動作,菲外長對華發聲,態度很強硬

恰似一縷微光華
2026-06-13 13:39:39
貝克漢姆慶祝好萊塢摘星,好大兒住隔壁都不愿來!14歲小女兒登門求和慘被哥嫂拒之門外?

貝克漢姆慶祝好萊塢摘星,好大兒住隔壁都不愿來!14歲小女兒登門求和慘被哥嫂拒之門外?

英國報姐
2026-06-13 21:09:08
媒體:馬斯克成世界首位萬億富翁,標志著貧富差距再創新高

媒體:馬斯克成世界首位萬億富翁,標志著貧富差距再創新高

小蔣愛嘮嗑
2026-06-14 12:47:44
寡婦必須哭,鰥夫必須垮?翁帆近況被爆,原來她和辛柏青處境一樣

寡婦必須哭,鰥夫必須垮?翁帆近況被爆,原來她和辛柏青處境一樣

看盡落塵花q
2026-06-14 07:34:09
2026-06-14 13:32:49
鮮棗課堂 incentive-icons
鮮棗課堂
ICT知識科普。
1046文章數 1259關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

媒體:美伊突然"握手"協議將敲定 但真正的炸彈在后頭

頭條要聞

媒體:美伊突然"握手"協議將敲定 但真正的炸彈在后頭

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

健康
本地
手機
教育
公開課

老人、小孩、孕婦,吃粽子有啥風險

本地新聞

AK劉彰邂逅河北南大港濕地

手機要聞

iPhone Ultra取消Face ID:改用側邊指紋 博主感嘆像是在做夢

教育要聞

“猜誰是媽,誰是女兒?”中年家長硬要裝嫩,被打臉后看清了現實

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版