News Center
新聞中心
您現(xiàn)在的位置:新聞詳情
首款A(yù)I時代的數(shù)據(jù)中心交換機終于來啦
每一個時代都有每一個時代的產(chǎn)物,比如移動網(wǎng)絡(luò)從1G演進到5G,有線寬帶從銅線+SDH演進到FTTH+OTN/WDM,我們都經(jīng)歷了不同的網(wǎng)絡(luò)設(shè)備。
數(shù)據(jù)中心同樣如此。
數(shù)據(jù)中心興起于1990年代末至2000年初的互聯(lián)網(wǎng)泡沫時期,快速增長的網(wǎng)站和應(yīng)用程序背后的大量數(shù)據(jù)需要存儲,數(shù)據(jù)中心應(yīng)運而生。
早期數(shù)據(jù)中心呈“煙囪式”的垂直構(gòu)架,資源無法共享,彈性差且利用率低,此時的網(wǎng)絡(luò)流量大部分只是客戶端和服務(wù)器之間的“南北向流量”。
隨后,數(shù)據(jù)中心向云時代演變,虛擬化技術(shù)打破了傳統(tǒng)數(shù)據(jù)中心“煙囪式”的垂直構(gòu)架,計算、存儲、網(wǎng)絡(luò)資源橫向打通,組成資源池,從而大幅提升了數(shù)據(jù)中心的資源利用率和靈活性。
隨著虛擬化技術(shù)的普及,跨越內(nèi)部服務(wù)器之間的“東西向流量” 陡然增加也給數(shù)據(jù)中心帶來了新的壓力,隨之出現(xiàn)了新一代高性能的數(shù)據(jù)中心交換機。
回顧過去20年,數(shù)據(jù)中心經(jīng)歷了從互聯(lián)網(wǎng)時代到云時代的演變,如今AI時代已來,數(shù)據(jù)中心又將面臨一次怎樣的變革?
AI時代的數(shù)據(jù)中心將如何變革?
眾所周知,人工智能通過采集海量數(shù)據(jù),從數(shù)據(jù)中識別、學(xué)習(xí)模式和規(guī)則,以預(yù)測趨勢、執(zhí)行策略,它本質(zhì)上就是依靠海量數(shù)據(jù)的不斷“喂食”來產(chǎn)出價值的,數(shù)據(jù)越多,結(jié)果就越準確。
尤其是深度學(xué)習(xí),相較于機器學(xué)習(xí),它無需建立初始模型,而是基于含多隱層的神經(jīng)網(wǎng)絡(luò)逐層抽象特征直至輸出,比如著名的擊敗世界圍棋冠軍的AlphaGo就是典型的深度學(xué)習(xí)例子,它比機器學(xué)習(xí)需要更多的訓(xùn)練數(shù)據(jù)。
人工智能之于數(shù)據(jù)的依賴性給數(shù)據(jù)中心的存儲和計算能力提出了新的挑戰(zhàn)。
為了提升AI運行效率,數(shù)據(jù)中心的存儲介質(zhì)已從機械硬盤(HDD)演進到閃存盤(SSD),以降低時延,滿足數(shù)據(jù)的實時存取要求,同時,業(yè)界已采用GPU甚至專用的AI芯片來提升處理海量數(shù)據(jù)的計算效率。
但是,這就可以滿足AI時代的數(shù)據(jù)中心需求了嗎?答案是否定的。
AI時代呼喚新的數(shù)據(jù)中心交換機
盡管數(shù)據(jù)中心的計算和存儲能力得到了大幅提升,但我們想象一下,在AI時代的數(shù)據(jù)中心集群里,服務(wù)器和存儲設(shè)備之間相互互聯(lián),如果網(wǎng)絡(luò)通信帶寬低、時延大、還丟包,必然會嚴重拖累整體處理效率,AI應(yīng)用的算力可能只能發(fā)揮50%,不能滿足AI時代的需求。
因此,作為數(shù)據(jù)中心網(wǎng)絡(luò)的樞紐,與當年云時代隨著東西流量劇增而誕生高性能的交換機一樣,AI時代需要能夠提供零丟包、低時延和高吞吐網(wǎng)絡(luò)的更大容量、更高性能的數(shù)據(jù)中心交換機。
除了大容量、高性能,AI時代的數(shù)據(jù)中心交換機還應(yīng)該具備大智慧。
自云時代打破了傳統(tǒng)數(shù)據(jù)中心的煙囪式構(gòu)架以來,計算、存儲、網(wǎng)絡(luò)深度融合,所有資源池化共享,按需分配,這極大的提升了靈活性和敏捷性,但隨著數(shù)據(jù)中心的規(guī)模不斷擴大,這也對傳統(tǒng)人工運維帶來了新的挑戰(zhàn),一旦發(fā)生故障,人工定位問題需要數(shù)小時。
隨后,業(yè)界通過Telemetry技術(shù)對設(shè)備進行數(shù)據(jù)采集,并將數(shù)據(jù)送到云端大腦進行智能分析,以主動預(yù)測和預(yù)防故障發(fā)生,從而實現(xiàn)智能運維。
但隨著數(shù)據(jù)中心規(guī)模的繼續(xù)擴大,數(shù)據(jù)采集對象越來越廣,采集維度越來越多,采集頻度越來越快,導(dǎo)致采集流量劇增,這又增加了云端大腦的負荷,導(dǎo)致智能運維決策速度越來越慢。
解決辦法在哪里?
首先,智能運維需引入AI,加速計算和決策。
其次,應(yīng)引入邊緣AI,讓一些分析和決策在交換機本地執(zhí)行,實現(xiàn)本地故障預(yù)測和實時自愈,從而減輕云端大腦的負荷。
簡而言之,為避免網(wǎng)絡(luò)通信成為AI時代的數(shù)據(jù)中心系統(tǒng)性能的短板,并推動高效的智能運維,行業(yè)呼喚內(nèi)嵌AI,具備大容量、高性能和大智慧能力的數(shù)據(jù)中心交換機誕生。
首款A(yù)I時代的數(shù)據(jù)中心交換機終于問世
2019年1月9日,在北京舉行的華為網(wǎng)絡(luò)春季新品發(fā)布會上,華為發(fā)布了業(yè)界首款面向AI時代的數(shù)據(jù)中心交換機CloudEngine 16800。
在發(fā)布會上,華為網(wǎng)絡(luò)產(chǎn)品線總裁胡克文表示,CloudEngine 16800具備三大特性:內(nèi)嵌AI芯片、單槽48 x 400GE、以及向自動駕駛網(wǎng)絡(luò)演進的能力。
1)內(nèi)嵌AI芯片,100%發(fā)揮AI算力
在現(xiàn)場產(chǎn)品展示中,CloudEngine 16800交換機內(nèi)一顆印著華為Logo的AI芯片格外引入注目。這顆高性能的AI芯片承載了華為獨創(chuàng)的iLossless智能無損交換算法,可實現(xiàn)流量模型自適應(yīng)自優(yōu)化,從而在零丟包基礎(chǔ)上獲得更低時延和更高吞吐的網(wǎng)絡(luò)性能,克服傳統(tǒng)以太網(wǎng)丟包導(dǎo)致的算力損失,將AI算力從50%提升到100%。
2)單槽位支持48 x 400GE,滿足未來5倍流量增長需求
CloudEngine 16800全面升級了硬件交換平臺,在正交架構(gòu)基礎(chǔ)上,突破超高速信號傳輸、超強散熱、高效供電等多項技術(shù)難題,使得單槽位可提供業(yè)界最高密度48端口400GE線卡,單機提供業(yè)界******的768端口400GE交換容量,交換能力高達業(yè)界平均的5倍,滿足AI時代流量倍增需求。同時,單比特功耗下降50%,更綠色節(jié)能。
3)使能自動駕駛網(wǎng)絡(luò),秒級故障識別、分鐘級故障自動定位
CloudEngine 16800基于內(nèi)置的AI芯片,可大幅度提升“網(wǎng)絡(luò)邊緣”即設(shè)備級的智能化水平,使得交換機具備本地推理和實時快速決策的能力;通過本地智能結(jié)合集中的FabricInsight網(wǎng)絡(luò)分析器,構(gòu)建分布式AI運維架構(gòu),可實現(xiàn)秒級故障識別和分鐘級故障自動定位,使能自動駕駛網(wǎng)絡(luò)加速到來。同時,該架構(gòu)還可大幅提升運維系統(tǒng)的靈活性和可部署性。
值得一提的是,這顆嵌入新時代交換機的AI大腦是一個完全開放的平臺,它可以作為數(shù)據(jù)中心業(yè)務(wù)的AI協(xié)處理器,也可通過它實現(xiàn)安全攻擊的主動防御,還可用于AI OPS的學(xué)習(xí)訓(xùn)練平臺…從而讓數(shù)據(jù)中心的AI能力變得更通用,更強大。
2012年,面向云時代,華為發(fā)布了當時業(yè)界最高性能的數(shù)據(jù)中心交換機CloudEngine 12800,這一創(chuàng)新產(chǎn)品隨后獲得了多項國際獎項,并為華為贏得了市場口碑雙豐收。