咨詢服務(wù):027-8220 0882
新聞動(dòng)態(tài)
|
智算迎來新機(jī)遇,算力基礎(chǔ)設(shè)施進(jìn)入發(fā)展繁榮期时间:2023-12-26 2023年是人工智能發(fā)展的重要轉(zhuǎn)折年,AIGC技術(shù)取得了突破性進(jìn)展,大模型訓(xùn)練、大模型應(yīng)用等新業(yè)務(wù)正在快速崛起,作為智能算力的載體,數(shù)據(jù)中心也已經(jīng)從數(shù)據(jù)機(jī)房、通算中心,發(fā)展到現(xiàn)階段的超算中心和智算中心。據(jù)統(tǒng)計(jì),全國已有超過30個(gè)城市正在建設(shè)或提出建設(shè)智算中心,巨大增長的算力需求吸引了眾多企業(yè)進(jìn)入算力領(lǐng)域,2023年我國算力基礎(chǔ)設(shè)施已經(jīng)進(jìn)入了多樣化發(fā)展的繁榮期。 智算中心作為新型算力基礎(chǔ)設(shè)施的重要組成部分,具有巨大的發(fā)展?jié)摿褪袌?chǎng)空間。但由于其承載的業(yè)務(wù)結(jié)構(gòu)、業(yè)務(wù)類型與傳統(tǒng)業(yè)務(wù)相比有較大不同,傳統(tǒng)數(shù)據(jù)中心無論從架構(gòu)上還是技術(shù)上均已很難與之匹配,2023年算力基礎(chǔ)設(shè)施出現(xiàn)了全方面的調(diào)整和優(yōu)化以應(yīng)對(duì)這種轉(zhuǎn)變。 政策和需求雙重推動(dòng),算力基礎(chǔ)設(shè)施持續(xù)高速發(fā)展 2023年,我國數(shù)據(jù)中心發(fā)展與全球趨勢(shì)基本一致,正在從高速成長期轉(zhuǎn)入平穩(wěn)發(fā)展期,但隨著新政策以及AIGC等利好因素的多重作用下,我國數(shù)據(jù)中心市場(chǎng)又迎來了新一輪機(jī)會(huì)。2023年10月,工業(yè)和信息化部等六部門聯(lián)合出臺(tái)了《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》,從計(jì)算力、運(yùn)載力、存儲(chǔ)力以及應(yīng)用賦能四個(gè)方面提出了到2025年要實(shí)現(xiàn)的發(fā)展量化指標(biāo),引導(dǎo)算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展,多措并舉協(xié)同推進(jìn)數(shù)據(jù)中心規(guī)劃建設(shè),推動(dòng)數(shù)網(wǎng)融合,推動(dòng)算力產(chǎn)業(yè)鏈。按照計(jì)劃,我國在2023年底建成30個(gè)智算中心,到2025年底將達(dá)到50個(gè)。 國家信息中心發(fā)布的《智能計(jì)算中心創(chuàng)新發(fā)展指南》顯示,預(yù)計(jì)未來5年中國智能算力規(guī)模在需求、政策、市場(chǎng)環(huán)境等多重因素的影響下,年復(fù)合增長率將達(dá)到52.3%。智算需求的增長推動(dòng)智算中心的建設(shè),將對(duì)國內(nèi)數(shù)字經(jīng)濟(jì)發(fā)展產(chǎn)生深遠(yuǎn)影響,隨著人工智能技術(shù)在多個(gè)領(lǐng)域的落地,未來幾年這一趨勢(shì)有望持續(xù)。 算力部署呈現(xiàn)集群化,單點(diǎn)高密度已成趨勢(shì) 公開資料顯示,截至目前國內(nèi)發(fā)布的AI大模型等智算產(chǎn)品已經(jīng)超過200個(gè),數(shù)量仍在持續(xù)增加。智算時(shí)代與傳統(tǒng)的云計(jì)算時(shí)代、算力時(shí)代有著非常大的差別,數(shù)據(jù)中心從規(guī)劃設(shè)計(jì)到建設(shè)運(yùn)營均已發(fā)生了實(shí)質(zhì)上的轉(zhuǎn)變,多生態(tài)、多樣性、快速部署、彈性匹配已逐漸成為新的標(biāo)準(zhǔn)?傮w上來說,2023年智算中心和傳統(tǒng)數(shù)據(jù)中心相比,在結(jié)構(gòu)上和規(guī)劃上展現(xiàn)出以下幾大特點(diǎn): 一是園區(qū)呈現(xiàn)規(guī)模化部署。傳統(tǒng)云計(jì)算等業(yè)務(wù)基本都是多地多中心的體系架構(gòu),而智算中心更多表現(xiàn)為大規(guī)模單點(diǎn)的高功率集群,園區(qū)通常還會(huì)配有自建的110kV或66kV專用變電站,不但可以滿足幾十兆瓦以上的電力供應(yīng)需求,還可以實(shí)現(xiàn)園區(qū)內(nèi)更加靈活的自主電力調(diào)度,更好的匹配算力。 二是機(jī)房轉(zhuǎn)向高密度架構(gòu)。高算力業(yè)務(wù)需求推動(dòng)高密度芯片發(fā)展,據(jù)IDTechEx報(bào)告顯示,在過去十多年時(shí)間里,GPU熱設(shè)計(jì)功耗(TDP)激增了四倍多,2023年TDP接近1000W的芯片已經(jīng)存在。智算業(yè)務(wù)正加速服務(wù)器的高密化部署,機(jī)柜功率密度已經(jīng)從幾kW向著幾十kW快速轉(zhuǎn)變,這一趨勢(shì)給數(shù)據(jù)中心熱管理帶來了重大挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)中心通過電力改造、制冷改造已經(jīng)很難滿足新需求,多個(gè)機(jī)房而不是單個(gè)機(jī)柜如何整體轉(zhuǎn)向高密度架構(gòu)也成為2023年業(yè)內(nèi)關(guān)注的焦點(diǎn)之一。 三是網(wǎng)絡(luò)匹配并行計(jì)算。智算系統(tǒng)具有高密度集中的特點(diǎn),對(duì)數(shù)據(jù)的通信交互和通信時(shí)延有著極高的要求。傳統(tǒng)網(wǎng)絡(luò)架構(gòu)下,單一機(jī)房可能需要上千條光纖鏈路互聯(lián),很多時(shí)候數(shù)據(jù)通信的時(shí)間占到計(jì)算全過程時(shí)間的50%以上,已經(jīng)成為影響整體效率的關(guān)鍵環(huán)節(jié)。智算系統(tǒng)的卡間、機(jī)柜間、節(jié)點(diǎn)間內(nèi)部互聯(lián)必然需要高速并行網(wǎng)絡(luò)去匹配,綜合布線也需要同步調(diào)整。 四是資源滿足彈性調(diào)配。智算業(yè)務(wù)由于負(fù)載具有大幅度突增突減的特點(diǎn),通常需要整機(jī)房、整棟樓的資源進(jìn)行彈性調(diào)度,而不是某個(gè)機(jī)房或者部分服務(wù)器的簡(jiǎn)單擴(kuò)展調(diào)度。因此需要更高度的架構(gòu)匹配、電力匹配、制冷匹配和網(wǎng)絡(luò)匹配,數(shù)據(jù)中心規(guī)劃、建設(shè)和運(yùn)營階段都面臨重大的挑戰(zhàn)。 算力基礎(chǔ)設(shè)施全方位匹配,定制化更具適應(yīng)性 2023年,智能算力與通用算力、超級(jí)算力協(xié)同發(fā)展,數(shù)據(jù)中心的設(shè)計(jì)建設(shè)模式也在發(fā)生變化,從過去的標(biāo)準(zhǔn)化、預(yù)制化、快速交付,轉(zhuǎn)向了定制化、彈性化、適配性,智算中心更注重利用先進(jìn)技術(shù)做出調(diào)整做好匹配,呈現(xiàn)以下特點(diǎn): 一是架構(gòu)選擇上更加靈活。智算業(yè)務(wù)對(duì)業(yè)務(wù)連續(xù)性的要求通常達(dá)不到金融、互聯(lián)網(wǎng)等業(yè)務(wù)的標(biāo)準(zhǔn),對(duì)數(shù)據(jù)中心可靠性的要求也在變低,因此運(yùn)營商可以通過分級(jí)細(xì)化去滿足不同可靠性的要求,而不必一定達(dá)到GB50174-2017《數(shù)據(jù)中心設(shè)計(jì)規(guī)范》中A級(jí)數(shù)據(jù)中心的標(biāo)準(zhǔn)。例如,處于搭建、訓(xùn)練、測(cè)試等成長階段的業(yè)務(wù),并不要求實(shí)時(shí)性,因此數(shù)據(jù)中心可以只提供雙路供電,并不需要搭建柴發(fā)系統(tǒng)等備用電源甚至不需要UPS系統(tǒng),只需根據(jù)變化后期配套建設(shè)即可,這將有利于園區(qū)整體投資和規(guī)劃,并保持架構(gòu)的靈活性。 二是基礎(chǔ)設(shè)施全方位匹配。電力方面,高密度大規(guī)模智算系統(tǒng)將導(dǎo)致配電模型變大,未來一棟智算中心甚至可能用掉一整座66kV變電站的電力,電力匹配是關(guān)鍵環(huán)節(jié);制冷方面,智算業(yè)務(wù)功率密度比傳統(tǒng)業(yè)務(wù)要高一個(gè)等級(jí),液冷已經(jīng)逐漸成為主流,風(fēng)液比例也變的越來越低。全新風(fēng)直接蒸發(fā)自然冷卻等技術(shù)正在普及,大容量高風(fēng)墻也可能成為未來發(fā)展趨勢(shì);網(wǎng)絡(luò)方面,高速并行計(jì)算極大的推動(dòng)高吞吐、低時(shí)延的網(wǎng)絡(luò)設(shè)備發(fā)展,推動(dòng)400G商業(yè)化落地和800G標(biāo)準(zhǔn)化建立,同時(shí)也將推動(dòng)綜合布線拓?fù)渥兓惺胶头植际讲季相互結(jié)合,提升整體效率。 三是運(yùn)維壓力持續(xù)增加。業(yè)務(wù)系統(tǒng)的高密度給運(yùn)維帶來很大安全隱患,高功率密度推動(dòng)液冷落地,但液冷并不是單一技術(shù),將帶來冷凍側(cè)的重構(gòu),帶給運(yùn)維更大挑戰(zhàn)。當(dāng)液冷系統(tǒng)發(fā)生泄壓、漏液、氣阻等情況時(shí),給予運(yùn)維團(tuán)隊(duì)?wèi)?yīng)急反應(yīng)的時(shí)間越來越短,運(yùn)維人員需要改變傳統(tǒng)運(yùn)維習(xí)慣,將基礎(chǔ)設(shè)施和智算設(shè)備聯(lián)動(dòng)控制,這也對(duì)運(yùn)維人員的能力提出更高要求。2023年全球已經(jīng)發(fā)生多起由于運(yùn)維人員應(yīng)急處置不及時(shí)而引發(fā)的重大事故,要引起高度重視。 四是快速落地與遠(yuǎn)期兼容做好平衡。一方面要實(shí)現(xiàn)快速建設(shè)落地,滿足現(xiàn)階段高速發(fā)展的業(yè)務(wù)需求,一方面要盡量減少后期改造難度和費(fèi)用,做好遠(yuǎn)期兼容,兩者之間的平衡關(guān)鍵是各系統(tǒng)的最小顆粒度。選擇適中的顆粒度需要從全程TCO角度出發(fā),綜合快速交付、運(yùn)營、擴(kuò)展以及性價(jià)比,以滿足面對(duì)業(yè)務(wù)時(shí)的不確定性和不穩(wěn)定性,這也成為2023年業(yè)內(nèi)關(guān)注的焦點(diǎn)之一。 |