設(shè)想這樣一個系統(tǒng),它可以探索解決復(fù)雜問題的多種方法,依托對海量數(shù)據(jù)的理解——從科學(xué)數(shù)據(jù)集到源代碼,再到商業(yè)文檔——并能夠?qū)崟r推理各種可能性。這種閃電般極速的推理不是未來的設(shè)想,而是如今亞馬遜云科技客戶AI生產(chǎn)環(huán)境中正在發(fā)生的事情。當(dāng)前我們的客戶在藥物研發(fā)、企業(yè)搜索、軟件開發(fā)等多個領(lǐng)域構(gòu)建的AI系統(tǒng)規(guī)模令人驚嘆,而這僅是開始。
為了加速推理模型、Agentic AI系統(tǒng)等新興生成式AI技術(shù)的發(fā)展,亞馬遜云科技宣布由NVIDIA Grace Blackwell Superchips加速的Amazon EC2 P6e-GB200 UltraServer現(xiàn)已正式可用。P6e-GB200 UltraServer專為訓(xùn)練和部署最大規(guī)模、最復(fù)雜的AI模型而設(shè)計。今年早些時候,亞馬遜云科技已推出了基于NVIDIA Blackwell GPU的Amazon EC2 P6-B200實例,支持多樣化的AI和高性能計算工作負(fù)載。
基于亞馬遜云科技在大規(guī)模、安全可靠GPU基礎(chǔ)設(shè)施的豐富經(jīng)驗,Amazon EC2 P6e-GB200 UltraServer和Amazon P6-B200實例能夠幫助客戶持續(xù)推動AI技術(shù)的邊界。
滿足 AI 工作負(fù)載不斷增長的計算需求
Amazon EC2 P6e-GB200 UltraServer是亞馬遜云科技迄今為止最強(qiáng)大的GPU產(chǎn)品,配備最多72個NVIDIA Blackwell GPU,這些GPU通過第五代NVIDIA NVLink互連,并作為單一計算單元運(yùn)行。每臺UltraServer可提供高達(dá)360 petaflops的高密度FP8算力,以及13.4TB的高帶寬顯存(HBM3e)——相比P5en實例,在單個NVLink域內(nèi)的計算能力提升超過20倍,內(nèi)存容量提升超過11倍。Amazon EC2 P6e-GB200 UltraServer支持高達(dá)28.8 Tbps的第四代Elastic Fabric Adapter(EFAv4)網(wǎng)絡(luò)帶寬。
Amazon EC2 P6-B200實例為廣泛AI場景提供靈活選擇。每個實例配備8個通過NVLink互連的NVIDIA Blackwell GPU,擁有1.4TB高帶寬顯存和最高3.2 Tbps的EFAv4網(wǎng)絡(luò)帶寬,以及第五代Intel Xeon Scalable處理器。與Amazon EC2 P5en實例相比,Amazon EC2 P6-B200實例的GPU計算能力是其2.25倍,顯存容量為其1.27倍,顯存帶寬為其1.6倍。
如何在Amazon EC2 P6e-GB200與Amazon EC2 P6-B200之間進(jìn)行選擇?關(guān)鍵取決于客戶的具體工作負(fù)載需求和架構(gòu)偏好:
Amazon EC2 P6e-GB200 UltraServer非常適合對計算與內(nèi)存要求最為嚴(yán)苛的AI工作負(fù)載,例如訓(xùn)練和部署萬億參數(shù)級的前沿模型。NVIDIA GB200 NVL72架構(gòu)在這種規(guī)模下表現(xiàn)尤為出色�?梢韵胂螅�72個GPU協(xié)同運(yùn)作、共享統(tǒng)一內(nèi)存空間并實現(xiàn)協(xié)調(diào)的負(fù)載分配。這種架構(gòu)通過降低GPU節(jié)點(diǎn)之間的通信開銷,提高分布式訓(xùn)練效率。對于推理任務(wù),能夠在單一NVLink域內(nèi)容納萬億參數(shù)模型,這意味著可在大規(guī)模場景下實現(xiàn)更快、更穩(wěn)定的響應(yīng)時間。當(dāng)與如NVIDIA Dynamo支持的解耦式推理等優(yōu)化技術(shù)結(jié)合使用時,GB200 NVL72架構(gòu)具備的大規(guī)模域優(yōu)勢,可為專家混合模型等多種模型架構(gòu)帶來顯著的推理效率提升。特別是在處理超長上下文窗口或?qū)崟r運(yùn)行高并發(fā)應(yīng)用時,GB200 NVL72展現(xiàn)出強(qiáng)大的性能表現(xiàn)。
Amazon EC2 P6-B200實例支持廣泛的AI工作負(fù)載,是面向中到大型訓(xùn)練與推理任務(wù)的理想選擇。對于希望遷移現(xiàn)有GPU工作負(fù)載的客戶,Amazon EC2 P6-B200提供了熟悉的8-GPU配置,可最大程度減少代碼修改,簡化從當(dāng)前代實例的遷移過程。此外,盡管英偉達(dá)的AI軟件棧已針對Arm和x86架構(gòu)進(jìn)行了優(yōu)化,但對于構(gòu)建于x86環(huán)境的工作負(fù)載,配備Intel Xeon處理器的Amazon EC2 P6-B200實例將更為契合。
基于亞馬遜云科技核心優(yōu)勢的持續(xù)創(chuàng)新
將NVIDIA Blackwell引入亞馬遜云科技不僅僅是一項技術(shù)突破,更是對基礎(chǔ)設(shè)施的全面創(chuàng)新。基于在計算、網(wǎng)絡(luò)、運(yùn)維和托管服務(wù)等領(lǐng)域的多年深耕與實踐,亞馬遜云科技將NVIDIA Blackwell的全部功能融入其中,同時滿足客戶期望在亞馬遜云科技獲得的高可靠性和性能。
實例強(qiáng)大的安全性與穩(wěn)定性
客戶在選擇將GPU工作負(fù)載部署在亞馬遜云科技上的原因中,有一點(diǎn)反復(fù)被提及:他們高度認(rèn)可亞馬遜云科技在云端對實例安全性與穩(wěn)定性上的重視。Amazon Nitro系統(tǒng)的專用硬件、軟件和固件具備強(qiáng)制隔離機(jī)制,確保包括亞馬遜云科技員工在內(nèi)的任何人都無法訪問客戶的敏感AI負(fù)載與數(shù)據(jù)。
除了安全性,Amazon Nitro系統(tǒng)還從根本上革新了基礎(chǔ)設(shè)施的維護(hù)與優(yōu)化方式。該系統(tǒng)負(fù)責(zé)處理網(wǎng)絡(luò)、存儲及其他I/O功能,并支持在系統(tǒng)持續(xù)運(yùn)行的情況下完成固件升級、漏洞修復(fù)和性能優(yōu)化。這種無需停機(jī)即可更新的能力,被稱為"實時更新",在當(dāng)前對連續(xù)性要求極高的AI生產(chǎn)環(huán)境中尤為關(guān)鍵,任何中斷都可能對業(yè)務(wù)進(jìn)度造成嚴(yán)重影響。
Amazon EC2 P6e-GB200和Amazon EC2 P6-B200均搭載第六代Nitro系統(tǒng)。但這些安全與穩(wěn)定性的優(yōu)勢并非首次出現(xiàn),自2017年起,創(chuàng)新型Nitro架構(gòu)就已在持續(xù)保護(hù)和優(yōu)化Amazon EC2上的工作負(fù)載。
大規(guī)模環(huán)境下的可靠性能保障
對于AI基礎(chǔ)設(shè)施的挑戰(zhàn)不僅在于實現(xiàn)超大規(guī)模,更在于如何在這一規(guī)模下持續(xù)保障性能和可靠性。Amazon EC2 P6e-GB200 UltraServer已部署至第三代Amazon EC2 UltraCluster中,創(chuàng)建了單一架構(gòu),可覆蓋亞馬遜云科技規(guī)模最大的數(shù)據(jù)中心。第三代UltraCluster最多可將功耗降低40%、布線需求減少超過80%,不僅顯著提升了能效,也有效減少了潛在故障點(diǎn)。
為了在超大規(guī)模部署中提供一致性能,亞馬遜云科技采用了Elastic Fabric Adapter(EFA)及其可擴(kuò)展可靠數(shù)據(jù)報協(xié)議(Scalable Reliable Datagram),該協(xié)議可在多條網(wǎng)絡(luò)路徑之間智能路由流量,即使在出現(xiàn)擁堵或故障的情況下,也能保持系統(tǒng)穩(wěn)定運(yùn)行。亞馬遜云科技持續(xù)對四代EFA進(jìn)行性能優(yōu)化。配備EFAv4的Amazon EC2 P6e-GB200和Amazon EC2 P6-B200實例,在分布式訓(xùn)練中的集體通信速度相比使用EFAv3的Amazon EC2 P5en實例提升最高可達(dá)18%。
基礎(chǔ)設(shè)施效率
Amazon EC2 P6-B200 實例采用經(jīng)過驗證的空氣冷卻架構(gòu),而Amazon EC2 P6e-GB200 UltraServer 則采用液冷方案,使大型 NVLink 域架構(gòu)能夠?qū)崿F(xiàn)更高的計算密度,從而提升系統(tǒng)整體性能。P6e-GB200 配備創(chuàng)新的機(jī)械冷卻設(shè)計,可在新建和既有數(shù)據(jù)中心中實現(xiàn)靈活的芯片級液冷,從而在同一設(shè)施內(nèi)同時支持液冷加速器與空氣冷卻的網(wǎng)絡(luò)和存儲設(shè)備。憑借這一靈活的冷卻架構(gòu),亞馬遜云科技能夠以更低成本實現(xiàn)更高性能與效率。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...