[No.S024]
10月25日-27日,以“大數(shù)據(jù)推動數(shù)字經(jīng)濟”為主題的“2018中國計算機大會”(CNCC2018)在杭州市國際博覽中心(G20 會場)盛大舉辦。作為我國計算機領(lǐng)域規(guī)模最大,規(guī)格最高的學(xué)術(shù)、技術(shù)、產(chǎn)業(yè)交融互動的盛會,本次大會匯聚圖靈獎獲得者、美國工程院院士、中科院、清華、北大、東京大學(xué)、微軟、谷歌、阿里、頭條等眾多信息技術(shù)領(lǐng)域知名人士及院所高校企業(yè),以超過7500名的參會人數(shù)再創(chuàng)CNCC十五年盛會新高。
圖靈獎獲得者、美國計算機科學(xué)家 Robert E.Kahn
其中,在25日下午的硬件安全論壇中,中科院計算所研究員、中科馭數(shù)CEO鄢貴海以《軟件定義體系結(jié)構(gòu)及計算架構(gòu)安全屬性的設(shè)計權(quán)衡》為題與香港科技大學(xué)工程學(xué)院院長Tim Cheng、馬里蘭大學(xué)帕克分校電氣與計算機工程系教授屈鋼、香港中文大學(xué)計算機科學(xué)與工程系副教授徐強分別做了主題分享,并共同參與了《從硬件安全到信息系統(tǒng)安全:過去、現(xiàn)在與未來》的圓桌交流。
中科院計算所研究員、中科馭數(shù)CEO鄢貴海做主題分享
半導(dǎo)體芯片“摩爾定律”已接近尾聲,但“數(shù)據(jù)摩爾定律”才剛剛開始
鄢貴海表示,自因特爾創(chuàng)始人戈登摩爾于1965年提出“摩爾定律”以來,芯片的運算能力大體上按照每18個月翻一番的速率在增長。其中的貢獻既來自于工藝進步,也來自架構(gòu)的不斷創(chuàng)新。芯片制造工藝進步所帶來巨大貢獻體現(xiàn)在,幾乎對架構(gòu)不做任何更改,僅依賴采用更細(xì)化的半導(dǎo)體工藝,就可以帶來可觀的性能提升。同時,更密集、更便宜的晶體管和互連線等片上資源也為更多架構(gòu)設(shè)計提供了可能性。
然而,隨著工藝不斷細(xì)化到逼近一定的物理極限,“摩爾定律”的失效已成必然。數(shù)據(jù)顯示,芯片晶體管密度在近三年的年化增長率僅為3.5%,這意味著原來“工藝-架構(gòu)”這種“雙輪驅(qū)動”的發(fā)展模式似乎難以平衡。其實,早在2005年,單個處理器芯核的能效比提升就已經(jīng)面臨困難,發(fā)展多核處理器架構(gòu)也一直在進行中。在這個比較直接的演化過程中,很多并行應(yīng)用因此而直接受益,但也有很多應(yīng)用的性能并沒有因為采用多核處理器而得到提升,特別是那些沒有“顯式”并行度、難以進行并行編譯優(yōu)化的應(yīng)用。
在半導(dǎo)體芯片“摩爾定律”已經(jīng)接近尾聲的同時,“數(shù)據(jù)摩爾定律”顯然才剛剛開始。根據(jù)美國發(fā)布的《2016-2045年新興科技趨勢》,全球數(shù)據(jù)量自2015年開始每兩年翻一番。隨著應(yīng)用領(lǐng)域的不斷創(chuàng)新和數(shù)據(jù)的指數(shù)級增長,尤其是人工智能、區(qū)塊鏈、邊緣計算等技術(shù)對算力需求的不斷增強,依靠傳統(tǒng)的通用計算已很難有效地為繼,而專用計算架構(gòu)將發(fā)揮巨大的作用。且很多領(lǐng)域所承載的市場容量都足以支撐一類專用架構(gòu)的研發(fā)與應(yīng)用。例如,有預(yù)測表明現(xiàn)在熱點的領(lǐng)域如“人工智能”、“區(qū)塊鏈”等領(lǐng)域都承載了萬億美元量級的市場。
專用計算體系結(jié)構(gòu)“百花齊放”,“高性能”和“通用性”卻 “不可兼得
目前,面向?qū)S糜嬎愕捏w系結(jié)構(gòu)研究仍然處于“百花齊放”的時代,從探討FPGA、ASIC等具體底層實現(xiàn)到ISA指令集擴展等軟硬件架構(gòu)等均有涉及。專用加速系統(tǒng)的設(shè)計方法也還遠(yuǎn)沒有形成統(tǒng)一的定式。以GPU(圖形處理器)為代表,VPU(視頻處理器)、MPU(運動增強處理器)、APU(音頻處理器)等大多與多媒體的的編碼解碼相關(guān)的協(xié)處理器雖然得到了較廣泛應(yīng)用,但在一些基礎(chǔ)性的行業(yè)數(shù)據(jù)分析、一些業(yè)務(wù)數(shù)據(jù)爆發(fā)式增長的行業(yè),并沒有得到足夠的重視。算力問題依然是亟待解決的“剛需”。
谷歌用來加速深度學(xué)習(xí)的TPU
以近年來熱門的“深度學(xué)習(xí)”為例,據(jù)人工智能開放組織OpenAI 今年5月發(fā)布的分析,自2012 年以來,由于數(shù)據(jù)紅利和深度學(xué)習(xí)的訓(xùn)練,人們對于算力的需求增長了超過30萬倍�?梢钥吹�,幾乎所有的互聯(lián)網(wǎng)巨頭們都在補充自己的標(biāo)準(zhǔn)服務(wù)器——CPU,以通用處理器結(jié)合特定應(yīng)用加速的協(xié)處理器來共同處理海量數(shù)據(jù)。例如Microsoft利用FPGA來加速其旗下的Bing搜索引擎,Google研發(fā)的TPU來加速神經(jīng)網(wǎng)絡(luò)推理,阿里巴巴公司也有FPGA硬件的團隊來針對具體的計算負(fù)載來做加速等等。然而面對應(yīng)用的多樣性和數(shù)據(jù)的復(fù)雜性,“高性能”和“通用性”卻始終“不可兼得”。
一邊是巨頭硬件軟件“全棧式”研發(fā),另一邊是大多數(shù)企業(yè)仍是別無選擇
當(dāng)前,已經(jīng)有一些資深的行業(yè)人士已經(jīng)發(fā)現(xiàn),打通底層基礎(chǔ)硬件架構(gòu)和上層應(yīng)用的“全棧式”研發(fā),定制不同的多元化解決方案,將會變成產(chǎn)業(yè)非常重要組成部分。然而,目前除了資本、技術(shù)均有優(yōu)勢的巨頭們在持續(xù)的投資研發(fā)更匹配其應(yīng)用與數(shù)據(jù)的處理加速器外,絕大多數(shù)企業(yè)仍然只能選擇各類通用CPU為核心的服務(wù)器,即便在利用率低下、購買及使用成本高昂的情況下,仍然別無選擇。
這歸結(jié)于定制專用計算架構(gòu)具有很高的技術(shù)門檻,即便是基于以可編程性和靈活性著稱FPGA的解決方案,多數(shù)企業(yè)的研發(fā)能力也很難下探到計算架構(gòu)的層面,且還是犧牲了部分性能,因而無法從根基上優(yōu)化解決方案來高效地滿足“算力”的需求;而對于單個企業(yè)而言,建立一個專用架構(gòu)研發(fā)團隊在實際上也因為規(guī)模效應(yīng)不足、研發(fā)周期長、技術(shù)難度大、成本高等因素,導(dǎo)致極大的風(fēng)險。因此,當(dāng)下計算架構(gòu)的創(chuàng)新正是瞄準(zhǔn)了這個眾多企業(yè)面臨的核心問題:利用高效的專用計算架構(gòu)來顯著增強企業(yè)的數(shù)據(jù)處理能力,更好的支撐已有業(yè)務(wù)的運行,也為企業(yè)奠定數(shù)據(jù)驅(qū)動的創(chuàng)新提供算力保障。
既專用又靈活,用軟件定義體系結(jié)構(gòu)讓整體計算效率提升百倍
作為脫胎于中科院計算技術(shù)研究所的中科馭數(shù),為了高效解決特定領(lǐng)域的海量數(shù)據(jù)處理問題,創(chuàng)新性地采用軟件定義加速器的技術(shù)路線,從底層核心技術(shù)出發(fā),以專用芯片架構(gòu)為核心,實現(xiàn)軟硬件協(xié)同的高效的解決方案。其原創(chuàng)技術(shù)KPUTM(即核處理器,已提交備案),是專為加速特定領(lǐng)域核心功能計算而設(shè)計的一種協(xié)處理器。 KPUTM以功能核作為基本單元,直接對應(yīng)用中的計算密集性應(yīng)用進行抽象和高層綜合,實現(xiàn)以應(yīng)用為中心的架構(gòu)“定制” 。一顆KPUTM根據(jù)需求可以集成數(shù)十至數(shù)百個功能核。
中科馭數(shù)以原創(chuàng)技術(shù)設(shè)計全新協(xié)處理器——KPU
區(qū)別于傳統(tǒng)的以控制流計算模型為基礎(chǔ)馮·諾依曼結(jié)構(gòu),KPUTM的每一功能核都為某一功能計算專屬定制,與CPU、GPU、NPU大規(guī)模同質(zhì)化核心不同。其通過數(shù)據(jù)驅(qū)動計算的方式,不僅可以實現(xiàn)超大規(guī)模的計算并行,也實現(xiàn)了真正意義上的多指令多數(shù)據(jù)處理模式。且不同于FPGA在電路層的改造的性能犧牲,KPUTM的核心技術(shù)在功能核層,以編譯器形式內(nèi)置的功能核,既實現(xiàn)了領(lǐng)域內(nèi)硬件的統(tǒng)一,降低了規(guī)模限制的硬件成本和設(shè)計周期;又能通過軟件編程實現(xiàn)不同功能的計算,特定需求只需要增刪功能核的種類和數(shù)量即可。在整體計算效率提升百倍的前提下,仍然具有非常高的可擴展性和靈活性。從某種意義上說,中科馭數(shù)的KPUTM技術(shù)路線有望突破傳統(tǒng)“性能”與“通用性”不可兼得的設(shè)計局限,具有廣泛的應(yīng)用前景。
大咖評價:趨勢已明、把握平衡、選準(zhǔn)落地、任重致遠(yuǎn)
在論壇結(jié)束后,記者就KPU相關(guān)技術(shù)也請教了CNCC的現(xiàn)場特邀嘉賓香港科技大學(xué)工程學(xué)院院長、IEEE Fellow, Tim Cheng教授。Cheng教授早年曾任職于貝爾實驗室,創(chuàng)建了UCSB計算機工程系、主管科研的副教務(wù)長。
論壇結(jié)束后Cheng 教授和鄢貴海及與會人士交流KPU
Tim認(rèn)為,當(dāng)前算力需求爆發(fā)的趨勢已經(jīng)很清楚,而DSA(Domain Specific Architecture 領(lǐng)域?qū)S眉軜?gòu))是可以突破算力瓶頸的一個方向。其優(yōu)勢是對于某個領(lǐng)域的計算任務(wù)進行優(yōu)化,算力可以得到極大提升;但是市場需求量不如通用處理器大,這就要求DSA的開發(fā)成本和針對領(lǐng)域的需求體量做好平衡。中科馭數(shù)推出的基于SDA(軟件定義架構(gòu))方法設(shè)計的KPU,解決了DSA設(shè)計成本的問題,顯著降低了DSA的開發(fā)成本,這樣就大大拓展了DSA的使用領(lǐng)域。
此外Tim對中科馭數(shù)首先選擇Fintech領(lǐng)域開發(fā)KPU非常贊同。Tim認(rèn)為,金融計算領(lǐng)域市場還是非常大的,而且負(fù)載有其特殊性,是非常合適的DSA應(yīng)用場景。同時,Tim也表示DSA方向可以助力國家的“科技賦能金融”的長期戰(zhàn)略,是一項任重而道遠(yuǎn)的事業(yè),前景非常廣闊。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...