作者:趙廣立 來(lái)源:中國(guó)科學(xué)報(bào)
近期,一條話題圍繞“7個(gè)月涌現(xiàn)140個(gè)智算中心項(xiàng)目”的消息在計(jì)算圈內(nèi)不斷流傳,引起行業(yè)關(guān)注,并引發(fā)學(xué)者對(duì)其潛在的“算力閑置”等擔(dān)憂。
在9月24日的中國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)(HPC China 2024)上,計(jì)算領(lǐng)域?qū)<乙膊患s而同地關(guān)注到這個(gè)問題�!吨袊�(guó)科學(xué)報(bào)》了解到,大家擔(dān)憂的問題主要集中于一點(diǎn):中國(guó)智算應(yīng)該如何健康發(fā)展,從而更高效支撐人工智能(AI)應(yīng)用大潮?
“其實(shí)我更擔(dān)心的是,一些地方以攀比心態(tài)上馬的智算中心項(xiàng)目,能否保障為真實(shí)用戶提供優(yōu)質(zhì)可靠的智能計(jì)算服務(wù)?”中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)副理事長(zhǎng)、北京并行科技股份有限公司董事長(zhǎng)陳健在接受《中國(guó)科學(xué)報(bào)》專訪時(shí)說(shuō),若只有資源盲目擴(kuò)張卻不能發(fā)揮其應(yīng)有效能、讓需求端便捷獲取優(yōu)質(zhì)算力服務(wù),無(wú)疑意味著資源和資金的無(wú)謂浪費(fèi)。
陳健在受訪中。并行科技 供圖
現(xiàn)狀:國(guó)內(nèi)已建和在建智算中心已超250個(gè)
《中國(guó)科學(xué)報(bào)》了解到,該消息最早出自IT行業(yè)媒體“數(shù)智前線”。報(bào)道顯示,數(shù)智前線通過對(duì)中國(guó)政府采購(gòu)網(wǎng)、中國(guó)招投標(biāo)公共服務(wù)平臺(tái)、天眼查、企查查、尋標(biāo)寶等渠道的梳理和不完全統(tǒng)計(jì),僅2024年前7個(gè)月,圍繞土建基礎(chǔ)設(shè)施和IT基礎(chǔ)架構(gòu)等方方面面的建設(shè)內(nèi)容,智算中心相關(guān)項(xiàng)目中標(biāo)公告已發(fā)布超140個(gè)。
記者隨即取得了與“數(shù)智前線”的聯(lián)系,并獲得了其梳理編制的《2024年前7個(gè)月智算中心項(xiàng)目》詳細(xì)信息。
信息顯示,這140多個(gè)項(xiàng)目中,分布于至少23個(gè)省市的諸多市、區(qū)、縣內(nèi),其中尤以安徽、江蘇、北京、山東、浙江等省市出單最多。這些項(xiàng)目的中標(biāo)金額從數(shù)萬(wàn)元到超億元不等,其中尤以數(shù)百萬(wàn)元、數(shù)千萬(wàn)元的項(xiàng)目居多;超過1億元的項(xiàng)目有25個(gè),占比約18%。有分析認(rèn)為,智算中心單個(gè)項(xiàng)目過億元,或代表著一些單體智算中心建設(shè)正在逐漸向更大規(guī)模演進(jìn)。
而據(jù)賽迪顧問人工智能與大數(shù)據(jù)研究中心高級(jí)分析師白潤(rùn)軒提供的數(shù)據(jù)顯示:截至2024年上半年,國(guó)內(nèi)已經(jīng)建設(shè)和正在建設(shè)的智算中心已超過250個(gè)。參照當(dāng)前市場(chǎng)算力服務(wù)器價(jià)格,一個(gè)千卡規(guī)模(約須128臺(tái)算力服務(wù)器)的智算中心僅硬件設(shè)備的投資額就達(dá)約4億元。
智算中心資源會(huì)不會(huì)過剩、閑置?
看到上述智算中心建設(shè)數(shù)量的數(shù)字,上海交通大學(xué)網(wǎng)絡(luò)信息中心副主任林新華不無(wú)擔(dān)憂地發(fā)問:“現(xiàn)有的和許多正在規(guī)劃中的智算中心,將會(huì)對(duì)電網(wǎng)產(chǎn)生多大的壓力?如果未來(lái)5年生成式人工智能或大模型不能維持高熱度,這數(shù)百億的投資該如何處理?”
顧名思義,智算中心以處理人工智能計(jì)算任務(wù)為主,目前主要承接人工智能(AI)大模型的訓(xùn)練和推理任務(wù)。一般而言,大模型訓(xùn)練要求單體算力集群規(guī)模越大越好,而推理任務(wù)則一般不會(huì)有此要求�,F(xiàn)階段在生成式AI熱潮之下,市場(chǎng)上呈現(xiàn)出對(duì)智能計(jì)算(尤其是大規(guī)模訓(xùn)練集群)較高的需求態(tài)勢(shì),但能否長(zhǎng)期維持這種高需求狀態(tài),市場(chǎng)態(tài)度并不完全一致。
另外一件值得探討的事情是,國(guó)內(nèi)已有智算中心的利用率有多高?
“這可能是個(gè)謎。”林新華說(shuō):“這也許是商業(yè)機(jī)密,但如果是政府投資,就應(yīng)該信息公開。”他表示,他所負(fù)責(zé)的上海交通大學(xué)校級(jí)計(jì)算公共服務(wù)平臺(tái)“交我算”,在國(guó)內(nèi)高校中第一個(gè)踐行開放運(yùn)維理念,堅(jiān)持把實(shí)時(shí)利用率公開到網(wǎng)上,“接受用戶和社會(huì)監(jiān)督”。
“交我算”系統(tǒng)2024年某時(shí)段利用率情況。截圖自上海交通大學(xué)交我算平臺(tái)
關(guān)于智算中心是否過剩,在一線從事算力服務(wù)工作近20年的陳健認(rèn)為,應(yīng)該認(rèn)真地從供需視角來(lái)分析。
“如果市場(chǎng)對(duì)智算中心的需求是300、500個(gè),那么現(xiàn)在建設(shè)250個(gè),一點(diǎn)都不多;問題是需求量真的有這么大嗎?大家喊的‘缺算力’到底是缺哪一類算力?這需要弄清楚。”陳健從他在一線觀察向《中國(guó)科學(xué)報(bào)》分析說(shuō),其實(shí)市場(chǎng)上真正稀缺的是單集群規(guī)模超2000卡的訓(xùn)練算力;當(dāng)然,“萬(wàn)卡以上集群更加珍稀”。
他言下之意,除了相對(duì)稀缺的單體大規(guī)模算力集群之外,其他諸如用于AI推理的算力供應(yīng)相對(duì)而言是能滿足需求或夠用的,問題是如何開發(fā)好、利用好;投建新的智算中心也要算好“供需賬”,因?yàn)橐坏┧懔┻^于求,新建乃至一些已建智算中心恐有可能從“全村希望”變成“閑棋冷子”。
建好、用好都有挑戰(zhàn),人才是關(guān)鍵
事實(shí)上,要建好一個(gè)智算集群并非易事。中國(guó)工程院資深院士倪光南指出,智算集群不是簡(jiǎn)單的軟硬件的堆砌,它是一個(gè)復(fù)雜工程系統(tǒng),要求“3+1”算力體系(即算、存、運(yùn)和服務(wù))的緊密協(xié)同。
“就好比構(gòu)建一個(gè)足球冠軍團(tuán)隊(duì),不僅需要有各個(gè)優(yōu)秀球員,還需要球員之間的協(xié)同和配合以達(dá)到最高效能。”倪光南說(shuō),也正是基于復(fù)雜工程系統(tǒng)思維,智算集群在算力規(guī)模、算力利用率、集群可靠性等關(guān)鍵指標(biāo)上,可以持續(xù)“挑戰(zhàn)”和“對(duì)抗”源于單模塊、單機(jī)、單系統(tǒng)的各種物理極限和失效問題。
但是復(fù)雜系統(tǒng)有其脆弱性。陳健告訴記者,智算集群和超算類似,本質(zhì)上都是并行計(jì)算程序,其特點(diǎn)是所有計(jì)算單元要同步運(yùn)行,如果其中一個(gè)計(jì)算節(jié)點(diǎn)或通信模塊出現(xiàn)故障,整個(gè)程序就會(huì)失靈,訓(xùn)練任務(wù)就中斷了。
“這就要求在系統(tǒng)搭建之初不能有任何軟件或技術(shù)上的問題。換句話說(shuō),必須把每一件事都做到極致,才有可能做到盡可能高的系統(tǒng)穩(wěn)定性。”陳健說(shuō)。
林新華告訴《中國(guó)科學(xué)報(bào)》,字節(jié)跳動(dòng)和DeepSeek近期都發(fā)表了介紹關(guān)于萬(wàn)卡GPU集群如何建設(shè)與運(yùn)維的論文,就主要從性能優(yōu)化和可靠性兩方面展開。
“如果沒有解決甚至沒有意識(shí)到這些問題,那么這些智算中心中的一部分很有可能是在非常低效運(yùn)轉(zhuǎn)。”林新華說(shuō),而且規(guī)模越大,問題越多:“我相信在實(shí)際運(yùn)維和管理中遇到的問題會(huì)遠(yuǎn)比字節(jié)跳動(dòng)論文中指出的要多得多。”
這些技術(shù)細(xì)節(jié)決定了,算力集群的建設(shè)、運(yùn)維和應(yīng)用等環(huán)節(jié),都非常依賴專業(yè)運(yùn)維和技術(shù)隊(duì)伍。然而,熱火朝天部署智算中心的另一面,恰是專業(yè)人才的短缺。
“如果數(shù)字準(zhǔn)確的話,國(guó)內(nèi)已建和在建的智算中心超250座,但我不認(rèn)為國(guó)內(nèi)有250支專業(yè)的隊(duì)伍來(lái)維護(hù)它們。”陳健直言不諱。在他看來(lái),全國(guó)范圍內(nèi)能稱得上頂尖的一站式計(jì)算服務(wù)團(tuán)隊(duì)的數(shù)量,“兩只手?jǐn)?shù)得過來(lái)”。
林新華也提出,算力服務(wù)器等軟硬件可以“說(shuō)買就買”,但好的技術(shù)人員不是能馬上就批量培養(yǎng)出來(lái)的,“這么多智算中心,真的都能找到那么多專業(yè)的算力技術(shù)人員嗎?”
記者了解到,國(guó)外的智算中心更偏向于公有云部署或在已有超算中心建設(shè)AI算力提供服務(wù),因?yàn)橛鞋F(xiàn)成的專業(yè)運(yùn)維團(tuán)隊(duì)和技術(shù)人員保障。比如美國(guó)國(guó)家科學(xué)基金會(huì)就在德州大學(xué)高級(jí)計(jì)算中心的基礎(chǔ)上,建設(shè)了相應(yīng)的智算集群。
建議:讓有形的手和無(wú)形的手共同作用
“無(wú)論是質(zhì)疑超建還是擔(dān)憂水平,大家本質(zhì)關(guān)心的,是一個(gè)面向需求、如何最優(yōu)匹配供給的問題。”陳健對(duì)《中國(guó)科學(xué)報(bào)》表示,厘清這一點(diǎn)至關(guān)重要。
與水電不同,算力并不均質(zhì)化,各行各業(yè)所需的算力模式亦不盡相同,各類用戶會(huì)根據(jù)其需求尋找市場(chǎng)上最匹配的算力。“如果市場(chǎng)上有當(dāng)然好,沒有,那就新建。”陳健說(shuō),其實(shí)新建算力中心并不可怕,關(guān)鍵要看是不是有“真金白銀的需求”。
陳健認(rèn)為,面對(duì)需求,寄望于國(guó)家沿用“計(jì)劃經(jīng)濟(jì)”方式、統(tǒng)籌各地方建設(shè)規(guī)劃的做法,顯然已經(jīng)過時(shí)且難度極大,極有可能由于規(guī)劃周期太長(zhǎng)造成“建完發(fā)現(xiàn)需求變了”的尷尬。他建議,國(guó)家可適度調(diào)控政策這只“有形的手”,讓市場(chǎng)這只“無(wú)形的手”發(fā)揮作用。
“比如,地方上如果有建設(shè)智算中心的計(jì)劃,初期可以通過調(diào)研粗略估計(jì)需求規(guī)模,之后可以根據(jù)需求變化來(lái)決定是否繼續(xù)‘加碼’和決定‘加碼’力度的大小,需求增長(zhǎng)快就多加、增長(zhǎng)慢就不加或少加。”他說(shuō),這種“動(dòng)態(tài)持續(xù)增長(zhǎng)式建設(shè)”方法,并行科技已有具體實(shí)踐,OpenAI訓(xùn)練GPT系列大模型的算力規(guī)模也是慢慢加上去的,事實(shí)證明,隨著需求變化來(lái)調(diào)整算力資源建設(shè)規(guī)模“基本上不會(huì)出大問題”。
另外,陳健也想到,從頂層設(shè)計(jì)的角度,政策上還可以考慮從補(bǔ)貼需求側(cè)入手、驅(qū)動(dòng)供給側(cè)以自我進(jìn)化的方式打造智算產(chǎn)業(yè)。例如,國(guó)家政策層面可以要求地方政府拿出規(guī)劃智算中心建設(shè)所需財(cái)政支出的30%或50%(非指定具體數(shù)字,僅為參考),貼補(bǔ)給大模型企業(yè)等需求方,監(jiān)督他們?cè)谑袌?chǎng)上自由購(gòu)買算力服務(wù)。他認(rèn)為,市場(chǎng)會(huì)“用腳投票”遴選出有競(jìng)爭(zhēng)力的算力供給者,優(yōu)勝劣汰,讓“盲目上馬智算中心”沒有生存土壤。
“但這樣做的話,其中也會(huì)涉及許多具體問題,比如如何做到公平分配、相關(guān)決策要做到合理合法合規(guī)等。”陳健說(shuō),如何破題,對(duì)于還處在智能時(shí)代初期的我們,未來(lái)還需要更多的研究和探索。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...