近日,由行業(yè)知名人士Jim Keller擔(dān)任CEO的Tenstorrent宣布完成由三星證券和 AFW Partners 領(lǐng)投的 6.93 億美元 D 輪融資。在這輪融資之后,這家 AI 芯片初創(chuàng)公司的估值約為 26 億美元。
Tenstorrent 創(chuàng)始人兼半導(dǎo)體先驅(qū) Jim Keller 在接受采訪時(shí)表示,該公司希望開發(fā)一款芯片,試圖打破 Nvidia 對(duì) AI 業(yè)務(wù)的壟斷,該公司在由韓國 AFW Partners 和三星證券領(lǐng)投的一輪融資中籌集了資金。Bezos Expeditions 與 LG Electronics Inc. 和 Fidelity 聯(lián)手參與了這輪融資,看好 Keller 的實(shí)力和人工智能技術(shù)領(lǐng)域的蓬勃發(fā)展機(jī)會(huì)。
值得一提的是,Bezos Expeditions的實(shí)控人為亞馬遜創(chuàng)始人Jeff Bezos�?紤]到AWS對(duì)英偉達(dá)芯片的采購量,可以看到這個(gè)投資背后的深層次含義。
除了領(lǐng)投方之外,許多知名投資者也參與了此輪融資,其中包括 XTX Markets、Corner Capital、MESH、加拿大出口發(fā)展局、安大略省醫(yī)療養(yǎng)老金計(jì)劃、LG 電子、現(xiàn)代汽車集團(tuán)、富達(dá)管理與研究公司、Baillie Gifford、Bezos Expeditions 等。
Tenstorrent方面表示,由于投資者需求強(qiáng)勁,該輪融資獲得超額認(rèn)購。Jim Keller 在接受采訪時(shí)更是表示,該公司希望開發(fā)一款芯片,試圖打破 Nvidia 對(duì) AI 業(yè)務(wù)的壟斷。
Tenstorrent是誰?
關(guān)于誰是Jim Keller,媒體已經(jīng)做了很多報(bào)道,我們就不再多言。參考半導(dǎo)體行業(yè)觀察之前發(fā)布的文章《Jim Keller的芯片研發(fā)封神之路》可以看到其光輝的履歷。至于Tenstorrent,則是一家由Jim Keller支持并擔(dān)任CEO的公司。
Tenstorrent 總部位于加利福尼亞州圣克拉拉,主要開發(fā)和銷售專為 AI 工作負(fù)載而設(shè)計(jì)的計(jì)算系統(tǒng),這些系統(tǒng)均圍繞該公司的 Tensix 核心開發(fā)。該公司的愿景是打破 Nvidia 在芯片硅片市場(chǎng)的壟斷,設(shè)計(jì)出更實(shí)惠的 AI 訓(xùn)練和部署硬件,避免使用 Nvidia 使用的高帶寬內(nèi)存等昂貴組件。
“如果你使用 HBM,你就無法擊敗 Nvidia,因?yàn)?Nvidia 購買的 HBM 最多,而且具有成本優(yōu)勢(shì),”Jim Keller在接受彭博社采訪時(shí)候說。“但他們永遠(yuǎn)無法像 HBM 內(nèi)置到他們的產(chǎn)品和插槽中那樣降低價(jià)格。”
眾所周知,Nvidia 為開發(fā)人員提供了全套專有技術(shù),涵蓋從芯片到互連甚至數(shù)據(jù)中心布局的方方面面,并承諾所有部件都能更好地工作,因?yàn)樗鼈兪菂f(xié)同設(shè)計(jì)的。而競(jìng)爭(zhēng)對(duì)手 AMD和 Tenstorrent 等公司則致力于與其他技術(shù)提供商實(shí)現(xiàn)更大的互操作性,無論是通過共享行業(yè)標(biāo)準(zhǔn)還是開放設(shè)計(jì)供他人使用。
為了吸引更多潛在客戶,該公司專注于與其他供應(yīng)商進(jìn)行可互操作的硬件設(shè)計(jì)。它使用開放標(biāo)準(zhǔn)的RISC-V 處理器架構(gòu),旨在為工程師和開發(fā)人員提供一個(gè)更開放的生態(tài)系統(tǒng),以便將其處理器和系統(tǒng)應(yīng)用于他們的數(shù)據(jù)中心和服務(wù)器設(shè)置。“過去,我使用專有技術(shù),這真的很艱難,”Jim Keller 說。“開源可以幫助你構(gòu)建更大的平臺(tái)。它吸引了工程師。是的,這是一個(gè)充滿激情的項(xiàng)目。”
為了實(shí)現(xiàn)這一目標(biāo),Tenstorrent將 AI 和 RISC-V 知識(shí)產(chǎn)權(quán)授權(quán)給想要擁有和定制專用芯片的客戶。RISC-V 是一種開源指令架構(gòu),用于基于所謂的“精簡(jiǎn)指令集”為不同應(yīng)用開發(fā)定制處理器,這使得它非常易于使用、定制和優(yōu)化功率、性能和功能。
與 RISC-V 和日本合作伙伴 Rapidus一樣,Tenstorrent 仍有很多需要證明的地方。迄今為止,這家新興公司已與客戶簽訂了總額近 1.5 億美元的合同,與 Nvidia 每季度數(shù)百億美元的數(shù)據(jù)中心收入相比,這相形見絀。
該公司表示,將利用新資金構(gòu)建開源 AI 軟件堆棧,并聘請(qǐng)開發(fā)人員來擴(kuò)大全球開發(fā)和設(shè)計(jì)中心。這將使該公司能夠構(gòu)建系統(tǒng)和云,供 AI 開發(fā)人員在其系統(tǒng)上使用和測(cè)試模型。
Tenstorrent 表示,其首批芯片由 GlobalFoundries制造,下一代芯片將來自臺(tái)灣半導(dǎo)體制造公司和三星電子公司。該公司還開始為尖端的 2 納米制造進(jìn)行設(shè)計(jì)。臺(tái)積電和三星將于明年開始大規(guī)模生產(chǎn),Tenstorrent 正在與他們以及日本的 Rapidus 進(jìn)行談判,后者的目標(biāo)是在 2027 年實(shí)現(xiàn) 2 納米產(chǎn)量。
XTX Markets 首席技術(shù)官 Joshua Leahy 表示:“我們發(fā)現(xiàn) Tenstorrent 的開源驅(qū)動(dòng)方法令人耳目一新,尤其是在專有且通常保密的 AI 加速器領(lǐng)域。”
隨著公司開始利用新資金擴(kuò)大規(guī)模,它將在 Nvidia 占據(jù)優(yōu)勢(shì)的市場(chǎng)中面臨阻力。然而,Jim Keller 仍然相信,通過提供更實(shí)惠、可以根據(jù)業(yè)務(wù)需求量身定制的 AI 芯片,并每?jī)赡臧l(fā)布一款新處理器,可以幫助該公司在 AI 芯片行業(yè)保持商業(yè)上可行的產(chǎn)品。
在接受媒體采訪的時(shí)候,Jim Keller曾總結(jié)說:
Tenstorrent 是一家設(shè)計(jì)公司。我們?cè)O(shè)計(jì)CPU,我們?cè)O(shè)計(jì)人工智能引擎,我們?cè)O(shè)計(jì)人工智能軟件堆棧。
因此,無論是軟 IP、硬 IP chiplet還是完整芯片,這些都是實(shí)現(xiàn)。我們?cè)谶@方面很靈活。例如,在 CPU 上,我們將在我們自己的chiplet流片之前對(duì)其進(jìn)行多次許可。我們正在與六家想要從事定制內(nèi)存芯片或 NPU 加速器等業(yè)務(wù)的公司進(jìn)行交談。我認(rèn)為對(duì)于我們的下一代,無論是 CPU 還是 AI,我們將構(gòu)建 CPU 和 AI chiplet。但隨后其他人會(huì)做其他的小芯片。然后我們會(huì)將它們整合到系統(tǒng)中。
憑啥挑戰(zhàn)英偉達(dá)?
從上面的介紹中,我們分享了Tenstorrent的愿景。接下來,我們了解一下這家公司的產(chǎn)品和路線圖。
在2023年三月,Tenstorrent 的首席 CPU 架構(gòu)師 Wei-Han Lien 在接受媒體采訪的時(shí)候就表示,由于 Tenstorrent 著眼于解決廣泛的 AI 應(yīng)用問題,因此它不僅需要不同的片上系統(tǒng)或系統(tǒng)級(jí)封裝,還需要各種 CPU 微架構(gòu)實(shí)現(xiàn)和系統(tǒng)級(jí)架構(gòu),以實(shí)現(xiàn)不同的功率和性能目標(biāo)。
Tenstorrent 表示,公司的CPU 團(tuán)隊(duì)開發(fā)了一種無序 RISC-V 微架構(gòu),并以五種不同的方式實(shí)現(xiàn)它,以滿足各種應(yīng)用的需求。
Tenstorrent 現(xiàn)在有五種不同的 RISC-V CPU 核心 IP,包括雙寬、三寬、四寬、六寬和八寬解碼,可用于自己的處理器或授權(quán)給感興趣的各方。對(duì)于那些需要非�;镜� CPU 的潛在客戶,該公司可以提供具有雙寬執(zhí)行能力的小核心,但對(duì)于那些需要更高性能用于邊緣、客戶端 PC 和高性能計(jì)算的客戶,它有六寬 Alastor 和八寬 Ascalon 核心。
每個(gè)具有八寬解碼的無序 Ascalon ( RV64ACDHFMV ) 核心都有六個(gè) ALU、兩個(gè) FPU 和兩個(gè) 256 位矢量單元,因此非常強(qiáng)大。考慮到現(xiàn)代 x86 設(shè)計(jì)使用四寬 (Zen 4) 或六寬 (Golden Cove) 解碼器,我們看到的是一個(gè)功能非常強(qiáng)大的核心。
除了各種 RISC-V 通用核心外,Tenstorrent 還擁有專為神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練量身定制的專有 Tensix 核心。每個(gè) Tensix 核心由五個(gè) RISC 核心、一個(gè)用于張量運(yùn)算的數(shù)組數(shù)學(xué)單元、一個(gè)用于矢量運(yùn)算的 SIMD 單元、1MB 或 2MB 的 SRAM 以及用于加速網(wǎng)絡(luò)數(shù)據(jù)包操作和壓縮/解壓縮的固定功能硬件組成。Tensix 核心支持多種數(shù)據(jù)格式,包括 BF4、BF8、INT8、FP16、BF16 甚至 FP64。
截止2023年三月,Tenstorrent 有兩種產(chǎn)品:一種名為 Grayskull 的機(jī)器學(xué)習(xí)處理器,提供約 315 INT8 TOPS 的性能,可插入 PCIe Gen4 插槽;另一種是聯(lián)網(wǎng)的 Wormhole ML 處理器,性能約為 350 INT8 TOPS,使用 GDDR6 內(nèi)存子系統(tǒng)、PCIe Gen4 x16 接口,并與其他機(jī)器建立 400GbE 連接。
這兩種設(shè)備都需要主機(jī) CPU,可作為附加板使用,也可內(nèi)置于預(yù)置的 Tenstorrent 服務(wù)器中。一臺(tái) 4U Nebula 服務(wù)器包含 32 張 Wormhole ML 卡,可提供約 12 個(gè) INT8 POPS 的性能,功率為 6kW。
在今年八月舉辦的 Hot Chips 上,Tenstorrent披露了Blackhole AI 加速器進(jìn)行。與之前作為基于 PCIe 的加速器部署的 Greyskull 和 Wormhole 部件不同,Tenstorrent 的 Blackhole旨在作為獨(dú)立的 AI 計(jì)算機(jī)運(yùn)行。
他們聲稱,該加速器在原始計(jì)算和可擴(kuò)展性方面可以勝過 Nvidia A100。據(jù)介紹,每個(gè) Blackhole 芯片都擁有 745 teraFLOPS 的 FP8 性能(FP16 為 372 teraFLOPS)、32GB 的 GDDR6 內(nèi)存和基于以太網(wǎng)的互連,能夠在其 10 個(gè) 400Gbps 鏈路上實(shí)現(xiàn) 1TBps 的總帶寬。
Tenstorrent 展示了其最新芯片如何在性能上比 Nvidia A100 GPU 略有優(yōu)勢(shì),盡管在內(nèi)存容量和帶寬方面都落后。然而,就像 A100 一樣,Tenstorrent 的 Blackhole 旨在作為橫向擴(kuò)展系統(tǒng)的一部分進(jìn)行部署。這家 AI 芯片初創(chuàng)公司計(jì)劃將 32 個(gè) Blackhole 加速器以 4x8 網(wǎng)格的形式連接起來,塞進(jìn)一個(gè)節(jié)點(diǎn),并將其稱為 Blackhole Galaxy。
總體而言,單個(gè) Blackhole Galaxy 承諾 FP8 的 23.8 petaFLOPS 或 FP16 的 11.9 petaFLOPS,以及能夠提供 16 TBps 原始帶寬的 1TB 內(nèi)存。此外,Tenstorrent 表示,該芯片的核心密集型架構(gòu)(我們稍后會(huì)深入探討)意味著這些系統(tǒng)中的每一個(gè)都可以用作計(jì)算或內(nèi)存節(jié)點(diǎn),或用作高帶寬 11.2TBps 的 AI 交換機(jī)。
Tenstorrent 人工智能軟件和架構(gòu)高級(jí)研究員 Davor Capalija 表示:“你可以用它作為樂高積木來搭建整個(gè)訓(xùn)練集群。”
值得一提的是。Tenstorrent 使用板載以太網(wǎng),這意味著它避免了在芯片到芯片和節(jié)點(diǎn)到節(jié)點(diǎn)網(wǎng)絡(luò)中處理多種互連技術(shù)所帶來的挑戰(zhàn),而 Nvidia 則必須使用 NVLink 和 InfiniBand/以太網(wǎng)。在這方面,Tenstorrent 的橫向擴(kuò)展策略與英特爾的Gaudi 平臺(tái)非常相似,后者也使用以太網(wǎng)作為其主要互連�?紤]到 Tenstorrent 計(jì)劃在一個(gè)盒子里塞入多少個(gè) Blackhole 加速器,更不用說一個(gè)訓(xùn)練集群,看看它們?nèi)绾翁幚碛布收蠈?huì)很有趣。
Tenstorrent 表示,Blackhole之所以能作為獨(dú)立的 AI 計(jì)算機(jī)運(yùn)行,主要?dú)w功于 16 個(gè)“Big RISC-V”64 位、雙發(fā)射、有序 CPU 核心,這些核心排列在四個(gè)集群中。至關(guān)重要的是,這些核心足夠強(qiáng)大,可以作為運(yùn)行 Linux 的設(shè)備主機(jī)。這些 CPU 核心與 752 個(gè)“Baby RISC-V”核心配對(duì),后者負(fù)責(zé)內(nèi)存管理、片外通信和數(shù)據(jù)處理。
然而,實(shí)際計(jì)算是由 Tenstorrent 的 140 個(gè) Tensix 核心處理的,每個(gè)核心由五個(gè)“Baby RISC-V”核心、一對(duì)路由器、一個(gè)計(jì)算綜合體和一些 L1 緩存組成。
計(jì)算綜合體由一個(gè)用于加速矩陣工作負(fù)載的圖塊數(shù)學(xué)引擎和一個(gè)矢量數(shù)學(xué)引擎組成。前者將支持 Int8、TF32、BF/FP16、FP8 以及 2 到 8 位的塊浮點(diǎn)數(shù)據(jù)類型,而矢量引擎則以 FP32、Int16 和 Int32 為目標(biāo)。
據(jù)他們所說,這種配置意味著該芯片可以支持 AI 和 HPC 應(yīng)用中的各種常見數(shù)據(jù)模式,包括矩陣乘法、卷積和分片數(shù)據(jù)布局。
總體而言,Blackhole 的 Tensix 核心占了 752 個(gè)所謂的板載 RISC-V 核心中的 700 個(gè)。其余核心負(fù)責(zé)內(nèi)存管理(“D”代表 DRAM)、片外通信(“E”代表以太網(wǎng))、系統(tǒng)管理(“A”)和 PCIe(“P”)。
除了新芯片之外,Tenstorrent 還公開了其加速器的 TT-Metalium 低級(jí)編程模型。
熟悉 Nvidia CUDA 平臺(tái)的人都知道,軟件可以成就或毀掉性能最高的硬件。事實(shí)上,TT-Metalium 有點(diǎn)讓人聯(lián)想到 CUDA 或 OpenCL 等 GPU 編程模型,因?yàn)樗钱悩?gòu)的,但不同之處在于它是從“AI 和橫向擴(kuò)展”計(jì)算開始構(gòu)建的,Capalija 解釋道。
其中一個(gè)區(qū)別是內(nèi)核本身是帶有 API 的純 C++。“我們認(rèn)為不需要特殊的內(nèi)核語言,”他解釋道。
結(jié)合 TT-NN、TT-MLIR 和 TT-Forge 等其他軟件庫,Tenstorrent 旨在支持使用 PyTorch、ONNX、JAX、TensorFlow 和 vLLM 等常用運(yùn)行時(shí)在其加速器上運(yùn)行任何 AI 模型。
寫在最后
替代英偉達(dá)是很多人的想法,但替代英偉達(dá)似乎是任何一個(gè)人都很難達(dá)成的目標(biāo)。例如,大家都知道,英偉達(dá)能穩(wěn)坐釣魚臺(tái),除了得益于其*的硬件外,包括CUDA在內(nèi)的軟件實(shí)力,是他們能壟斷至今的根本。
但Jim Keller曾表示:“CUDA并不是護(hù)城河,而是沼澤。”他同時(shí)認(rèn)為,GPU并不是運(yùn)行人工智能的全部。
“我希望可以幫助客戶構(gòu)建自己的產(chǎn)品,這是一件很酷的事情,您可以擁有并控制它,而不用向其他人支付 60% 或 80% 的毛利率。因此,當(dāng)人們告訴我們 Nvidia 已經(jīng)贏了,并問為什么 Tenstorrent 會(huì)參與競(jìng)爭(zhēng)時(shí),那是因?yàn)橹灰嬖诶麧櫬蕵O高的壟斷,就會(huì)創(chuàng)造商機(jī)。”Jim Keller說。
在筆者看來,亞馬遜后續(xù)會(huì)如何與英偉達(dá)battle,也會(huì)是一個(gè)有意思的話題。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...