![]()
大廠DCN網絡的前世
大廠DCN以龐大且常年穩定持續的需求量,理所當然作為設備廠商當今的頭牌金主甲方。
前世還應該去上一任甲方班主金融行業里找找,比如ServerFarm服務器“雞場”,畫面感撲面而來,相比之下,DCN這名字顯得太抽像了。
從比例上來說,DCN的部署密度至少是金融行業ServerFarm的20倍以上。
ServerFarm是散養雞場,DCN則是頂級養殖企業那種格子化密集雞場,盡顯工業化的魅力。
![]()
大廠DCN網絡的今生
各個大廠DCN目標以最小公倍數的方式歸納:容納高密度的服務器、要求滿足業務隨意部署、單點故障止損要快、TCO成本要低、不能讓交付效率成為日活月活爆發的障礙。
在這些約束條件的作用下,DCN都會長成這個樣子↓
一、接入交換機
通常會按在線和離線業務區分DC園區,通常經濟發達圈區都是離最終用戶時延小的在線DC,電和地都便宜的偏遠地區主要放離線。
▌在線業務
在線業務金貴,那就得2臺接入作為一組,與服務器組成bond提供高可用,這可能是和ServerFarm最大的共識了。
但依然有區別,大廠要求交換機上每一Mbps帶寬都應用于服務器與服務器通信,所以大廠會采用一種叫ARP/ND在bond成員端口雙發的服務器OS內核補丁。
交換機接收到ARP/ND后都要轉換成/32或/128的主機路由通過BGP發給鄰居以實現下聯接口斷開后的網絡收斂,這樣成對的交換機可以不用橫穿互聯也能組VRRP和LACP。
交換機所有端口不是上連就是下連,帶寬沒有絲毫浪費。
現在的交換機表項規格都經得起這么用。
▌離線業務
業務集群級耐造,服務器掛了也能靠業務收斂,那就沒必要bond了,單上行打造極致的Capex成本。
由于2種模式會造成運維差異,也有大廠通過虛擬化之類的統一成bond這種模式了。
二、全盒式CLOS組網
拓撲長得就像Facebook(Meta)之前發布的F16,接入層往上,可以分別叫模塊核心、集群核心、園區核心,基本上都是相同型號的單芯片盒式交換機。
![]()
Meta發布于2019年的F16
園區核心很好理解,一個DC園區共用這一層,數量可能很多,比如128或者256,被劃分成8或者16個平面。
集群核心比較理想的情況是一棟樓共用,數量也不少,比如64,也被劃分成8或者16個平面。
模塊核心那就是一個包間共用,這一層有8或者16或者32臺。
數量的多少來自于對建設規模的把握,與數據中心園區規模、樓棟規模、包間規模的對齊,也需要與需求節奏匹配上。
大家可能會覺得這是拍腦袋決策,這就像是多缸發動機一樣,每個缸的活塞都連接在曲軸上協同做功。
每個部門就是一個活塞,只要目標一致,自己部門的數據準確輸入,協同對齊機制會讓網絡部門得出一個最佳規模,而且這個最佳規模一定是會超過實際需求的,以容納各種突發的擴容。
另外分層設計的好處,就是可以滿足不同顆粒度的快速交付,園區開局一棟樓若干包間,再起包間就建模塊,再起樓就建集群。
這種標準化思路非常有利于自動化,不同層級可以設置預設檔位的收斂比滿足不同業務的性能口味。
三、哪些網絡協議更流行
這么龐大的網絡互聯只能用三層路由互聯且采用計算路由開銷最小的EBGP。
同時BGP豐富的路由屬性非常有利于擴展出奇葩需求,比如ARP/ND表項轉成主機路由,比如給路由采上各種團體字用來區分起源和用途。
另外,在CLOS組網中,設備A上行帶寬減少了1/4,同級設備上行帶寬沒有減少,對于下一級設備來說上一級設備就存在ECMP的木板效應,經過設備A的流量可能會丟包。
這個時候就要把短板A隔離,有了BGP,可以用UCMP實現不同負載的ECMP效果。
BGP可以說是目前最為活躍的路由協議,這些擴展都可以有RFC支持,至于OSPF,已經在大廠中絕跡了。
同樣絕跡的還有各種STP,但ISIS還是比OSPF有看點的,在DCI里經常可以看見ISIS的身影,就像3大運營商的骨干也是用ISIS一樣。
四、園區網受追捧、大廠網絡遭冷遇的大箱子們
曾經設備界的皇冠——機框式交換機,在大廠中逐漸走下神壇。
![]()
主要原因是端口密度高爆炸半徑大、實現黑盒不利于排障、機框內部也是兩級芯片互聯轉發3跳并沒有比盒式少、供應商少容易被成本和交期拿捏。
所以在大廠中,普遍的思路就是用簡單的工業品代替精細的藝術品。
五、不能忽視的光模塊們
得益于AI驅動互聯速率越來越高,負責高速信號傳遞的連接器件是數字通信和模擬通信的縫合體。
高速信號速率、傳輸距離、功耗限制、耐造程度這些約束匯聚在一起,使這個行業近年來一直游走在理論與材料學的邊界。
產能小單價高,讓連接器件變成比網絡芯片還要熱門的領域,獲得充足的供應配額和降低成本變成這個行當的看家手藝,各個大廠都會從器件BOM組合的方式去定義自己理想的模塊或者線纜。
光進銅退還是銅進光退在這些都是一時的現象,客觀的約束條件會自然地要求該光的時候就光、可銅的時候就銅。
如果拆開講,光就有SR、DR、FR、LR、ZR這些不同傳輸距離的模塊,每種模塊以對應著不同的光纖類型,就需要決策什么場景用什么模塊或者幾種組合模塊以滿足穩定性、成本和交付的條件。
這個領域的網工顯然不是研究路由協議出身,而是信號學領域的高足,也豐富了協議工曾經枯燥的世界。
![]()
六、大廠DCN網絡最怕什么?
龐大的網絡端到端路徑一定是非常多的,丟包時能不能快速定位到是哪臺設備哪個端口對于快速止損尤為重要。
所以需要部署網絡探針探測每一條轉發路徑。
此外,業務層改包問題也一度讓網工頭疼,曾經有某知名廠商對改包給出了宇宙射線和太陽耀斑爆發導致存儲器產生Parity Error的根因解釋。
在大廠里,不會追究這種無法確認的天文現象,而是把這種異常當成一種概率事件。
既然發生了,就盡快定位改包的設備,隔離它,再替換它。
手速越來越快之后,這些檢測、診斷、隔離就可以變成自動化的操作了。
大廠對待網絡就是一個無情的流水線,快速定位、隔離、替換……
至于設備、連接器異常的根因在不影響業務的情況下可以按部就班地去調查。
當然這些異常都會統計在故障率里,故障率高的供應商自然也是不可能得到獎賞的,冷冰冰的數據就是大廠的最強話術。
![]()
好了,這就是大廠DCN網絡的一些皮毛,下一篇我們再把當下比較火的HPN拎出來說說。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.