文|劉俊宏
AI時代,中國的服務(wù)器系統(tǒng)正在面臨一場雙重挑戰(zhàn)。
今年6月底,最主流的開源服務(wù)器操作系統(tǒng)CentOS正式停服,找一個合適的操作系統(tǒng)進(jìn)行遷移成為了必選項。同時,AI時代的到來,大模型追求更大、更快的訓(xùn)練及推理,也對整個算力產(chǎn)業(yè)提出了算力形態(tài)多元異構(gòu)、算力供給服務(wù)化、算力應(yīng)用智能化,這些更高、更新的要求。
眾所周知,只有強(qiáng)大的云計算,才能孕育強(qiáng)大的AI大模型,而云計算的基礎(chǔ)就是服務(wù)器。如何管理好這些服務(wù)器?操作系統(tǒng)是最底層、最關(guān)鍵的平臺軟件。夾在行業(yè)和時代的劇變中,IT行業(yè)的從業(yè)者們需要一個足夠穩(wěn)定、社區(qū)能夠長期支持和AI原生的服務(wù)器OS,以此角逐接下來的“AI十年計劃”。
正如中國工程院院士、龍蜥高級顧問團(tuán)代表陳純所言,“云計算的調(diào)度與彈性,大模型的訓(xùn)練與推理,都離不開一個穩(wěn)定、安全、高效的服務(wù)器操作系統(tǒng)”。
8月30日,在第二屆龍蜥操作系統(tǒng)大會上,國內(nèi)開源操作系統(tǒng)根社區(qū)龍蜥,推出官方正式版Anolis OS 23 ,可以更好支撐模型訓(xùn)練和AI應(yīng)用,全面兼容國內(nèi)外主流CPU、GPU架構(gòu)。
最令人驚喜的,還是龍蜥OS當(dāng)前已經(jīng)有了超800萬套的裝機(jī)量。這意味著,龍蜥OS在當(dāng)前超過1000家合作伙伴和100萬用戶的落地中,初步實(shí)現(xiàn)了可長期自循環(huán)的生態(tài),是國內(nèi)規(guī)模最大、生態(tài)最全面的服務(wù)器操作系統(tǒng)之一。
而這僅僅是開始。
參考PC端的Windows系統(tǒng)在英特爾和眾多開發(fā)者的幫助下,最終稱霸全球的經(jīng)驗:一款操作系統(tǒng)的成功,背后其實(shí)是整個上下游產(chǎn)業(yè)合作共創(chuàng)的結(jié)果。
面向未來,龍蜥也正式啟動了“Anolis OS 23生態(tài)衍生”、“CentOS替代”和“AI應(yīng)用推廣”的三大計劃,正在從底層生態(tài)、滿足市場需求和AI應(yīng)用三個層面做全力追趕。
作為軟件產(chǎn)業(yè)的三座大山之一,中國本土服務(wù)器系統(tǒng)正在邁入新階段,AI大模型的機(jī)遇中,甚至還有了彎道超車的可能。
AI原生的操作系統(tǒng),到底長啥樣?
“Android之父”安迪·魯賓曾觀察到操作系統(tǒng)存在以12年為周期更迭的現(xiàn)象,并在移動互聯(lián)時期網(wǎng)依然昌盛的2017年便提到,“AI是下一個重要操作系統(tǒng)”。
他的論斷還有待時間的檢驗,但在新一輪AI技術(shù)的迅猛發(fā)展下,手機(jī)、PC等各種硬件,都開始擁有了所謂的AI原生操作系統(tǒng),以更好地支持AI推理和應(yīng)用。
然而,在承接最關(guān)鍵的AI大模型訓(xùn)練任務(wù)的服務(wù)器端,用于大模型訓(xùn)練的AI化操作系統(tǒng)卻遲遲沒有到來。
背后原因,在阿里云基礎(chǔ)軟件部副總裁、龍蜥社區(qū)理事長馬濤看來,主要是不同端的操作系統(tǒng),要面臨和處理的場景、難度完全不一樣。
“手機(jī)AI,可能操作系統(tǒng)去支持喚醒Siri;桌面操作系統(tǒng),比如windows,可能是支持AI編個日程、寫個總結(jié)之類的任務(wù)。但服務(wù)器操作系統(tǒng)是完全不一樣的,大模型訓(xùn)練現(xiàn)在基本上跑在云上,這對調(diào)度和管理算力資源的服務(wù)器操作系統(tǒng),就提出了更大的挑戰(zhàn)。另一方面,一個操作系統(tǒng)運(yùn)行在上萬臺或者幾十萬臺的服務(wù)器集群上,需要AI去分析系統(tǒng)的疑難雜癥和風(fēng)險。”
服務(wù)器硬件廠商的感受更為明顯。浪潮云海首席科學(xué)家、龍蜥社區(qū)副理事長張東就直言,“ AI技術(shù)這兩年發(fā)展太快,底下的硬件和操作系統(tǒng)都是被拉著走的。”
“用戶說一臺服務(wù)器里面塞8塊卡不行,要塞16卡;存儲60塊盤不行,得配100塊,很快就200塊了,這逼著硬件廠商把機(jī)器越做越大。集群規(guī)模也越來越大,一百張卡不夠,要一千張,一萬張,這些硬件資源往上跑,怎么高效管理和調(diào)度?操作系統(tǒng)是解決這個問題非常重要的環(huán)節(jié)。”
一方面,操作系統(tǒng)本身要能處理AI相關(guān)硬件的爆發(fā)式增長和異構(gòu)硬件的兼容等問題;另外一方面,需要用AI的能力去改造操作系統(tǒng),把適配、搭建環(huán)境和系統(tǒng)等復(fù)雜的工作都自動處理掉,讓用戶很方便地去直接使用。
“我覺得把操作系統(tǒng)往AI方向發(fā)展的未來是確定的,但是現(xiàn)在對AI的適應(yīng)實(shí)際上還遠(yuǎn)遠(yuǎn)不夠。服務(wù)器操作系統(tǒng)怎么進(jìn)一步真正變成AI原生,更好支撐AI的訓(xùn)練和推理,同時操作系統(tǒng)本身也能夠變成一個智能體,還需要更大級別的創(chuàng)新。”張東如此總結(jié)道。
龍蜥嘗試解決這個問題,一邊是 “System for AI”,一邊是“AI for System”。
具體而言,“System for AI”主要是系統(tǒng)針對大模型訓(xùn)練和推理的兼容性、穩(wěn)定性和安全性進(jìn)行了大量的優(yōu)化工作,以更好支撐AI發(fā)展。
全新發(fā)布的Anolis OS 23正式版,采用 ANCK 6.6 內(nèi)核,顯著增強(qiáng)了對多平臺的兼容性,已經(jīng)全面支持國內(nèi)外主流的CPU、GPU架構(gòu)。在針對AI場景大量使用的AI框架中,提供了包括OpenVino在內(nèi)的原生支持。
并且,Anolis OS 23 適配更新、更豐富、更安全的 AI 容器服務(wù)生態(tài)(Alibaba cloud AI containers),包括 AI on NVIDIA、 AI on AMD、AI on Intel 和 AI on 國產(chǎn) GPU 等多生態(tài)場景。
容器服務(wù)承擔(dān)了目前80%的云上AI任務(wù),是最主流的AI開發(fā)方式,龍蜥新版本的這一迭代,勢必會幫助更多AI推理和應(yīng)用直接從龍蜥操作系統(tǒng)上長出來。
在“AI for System”這邊,則主要是考慮到了用戶在使用龍蜥過程中的效率和易用性,強(qiáng)化了AI原生操作系統(tǒng)的優(yōu)勢。龍蜥操作系統(tǒng)利用利用大模型打造了AI助手Copilot,能夠回答用戶問題,執(zhí)行簡單操作,分析系統(tǒng)問題。
此外,龍蜥還探索利用AI能力去輔助上系統(tǒng)管理人員、研發(fā)人員、安全和運(yùn)維人員更好地使用好這個操作系統(tǒng)等,用戶用起來就會感覺它是根據(jù)AI做的設(shè)計,真正體會到“AI原生”的意涵。
好的操作系統(tǒng),需要軟硬件全產(chǎn)業(yè)鏈協(xié)同
“操作系統(tǒng)由幾萬個(軟件)包構(gòu)成,這幾萬個包就像是街道上的幾萬只貓,操作系統(tǒng)需要讓幾萬只貓一會排成W形、一會兒排成S形,難度可想而知。”在統(tǒng)信軟件服務(wù)器產(chǎn)品線總經(jīng)理崔湛看來,做出一個好的操作系統(tǒng)并不容易。
更難的是做一個大家都用的、成功的操作系統(tǒng)�?v觀整個IT行業(yè)發(fā)展史,這極其仰賴于產(chǎn)業(yè)鏈上下游的共同努力。
在PC時期,是微軟Windows早期堅定“抱緊”英特爾。或許,英特爾的X86架構(gòu)并不一定是所有CPU指令集的最優(yōu)選,從DOS系統(tǒng)迭代的Windows也不一定是最好的PC操作系統(tǒng)。但在PC早期滲透的時期,“Wintel”聯(lián)盟憑借軟硬件一體的合作,與PC行業(yè)的第一批程序員們,共創(chuàng)了Windows與Intel的全球的霸主地位。
在移動互聯(lián)網(wǎng)時期,這一合作成了安卓與ARM。安卓追求更便宜、更定制化的芯片硬件,ARM架構(gòu)恰恰是當(dāng)時最好的選擇,雙方強(qiáng)強(qiáng)聯(lián)手,鑄造了移動互聯(lián)網(wǎng)時代的AA傳奇(Android&ARM)。
透過Windows和Android的成功經(jīng)驗看到,操作系統(tǒng)要想成功,除了需要本身性能足夠好用外,更需要從硬件到軟件的全產(chǎn)業(yè)鏈協(xié)同創(chuàng)新。
作為龍蜥社區(qū)創(chuàng)始成員的阿里云,前兩年就提出“一云多芯”,底下是不同廠商、不同功能的芯片,上面是一朵統(tǒng)一輸出算力的云。
要達(dá)成這樣的目標(biāo),就必須要在服務(wù)器操作系統(tǒng)這一關(guān)鍵的平臺軟件層實(shí)現(xiàn)最大程度的兼容。
龍蜥新發(fā)布的Anolis OS 23正式版,顯著增強(qiáng)了對多平臺的兼容性,還更新了開發(fā)工具和語言,在GCC上針對國產(chǎn)芯片平臺做了專項優(yōu)化,可帶來11%的性能提升。
龍蜥全面兼容國產(chǎn)芯片,對國際主流芯片也能很好支撐。
英特爾也是龍蜥社區(qū)的理事單位之一,英特爾資深技術(shù)總監(jiān)、龍蜥社區(qū)副理事長楊繼國就提出,“企業(yè)從CentOS過渡到龍蜥以后,在性能和兼容上不會有任何障礙”。
一方面,英特爾最新的芯片產(chǎn)品也能和龍蜥兼容,比如Anolis OS23就率先支持了英特爾今年剛剛發(fā)布的至強(qiáng)6芯片平臺;另一方面,對于廣泛使用的英特爾芯片,英特爾也能持續(xù)在龍蜥社區(qū)提供兼容性和生態(tài)擴(kuò)展的支持。
“從CentOS遷移到龍蜥,我們發(fā)現(xiàn)對新平臺的支持、對于芯片的優(yōu)化,龍蜥可能做得更好,并且做的更加快,而且效率更高”。楊繼國稱。
楊繼國還透露,英特爾在龍蜥社區(qū)做了很多工作,讓龍蜥操作系統(tǒng)與AI硬件能更好兼容;在軟件框架層面,英特爾則把開放的異構(gòu)編程框架引入集成到龍蜥社區(qū)里面去,讓用戶能夠以一種非常開放、開源的模式做AI開發(fā)工作。
另一大芯片領(lǐng)域的巨頭Arm,也在探索如何更好貢獻(xiàn)于龍蜥社區(qū)。
本屆龍蜥大會上, Arm、阿里云、平頭哥、中興新支點(diǎn)等公司也聯(lián)合宣布,將組建龍蜥社區(qū)Arm工作組,協(xié)同推進(jìn)基于Arm架構(gòu)的基礎(chǔ)軟件生態(tài)。
操作系統(tǒng)的橋梁紐帶作用通過開源社區(qū)的協(xié)作,放大了體系的效果。通過各方的努力,龍蜥社區(qū)如今已經(jīng)聚集了超過1000家的整個社區(qū)參與者和伙伴,是國內(nèi)規(guī)模最大、生態(tài)最全面的操作系統(tǒng)根社區(qū)之一。
這顯然也會有益于開源社區(qū)里的每一個成員。
阿里云基礎(chǔ)設(shè)施事業(yè)部總經(jīng)理蔣江偉更是直言,得益于眾多通用異構(gòu)芯片的廠商,特別是在國產(chǎn)自研芯片廠商,在龍蜥社區(qū)的積極參與和貢獻(xiàn),阿里云可以更好的發(fā)展一云多芯的戰(zhàn)略,在獲得更健壯的硬件供應(yīng)鏈保障的同時,也實(shí)現(xiàn)了統(tǒng)一資源的管理和調(diào)度,進(jìn)而向廣大的客戶提供了更高效的算力基礎(chǔ)設(shè)施服務(wù)。
統(tǒng)一內(nèi)核,堅持開源,破解碎片化難題
數(shù)據(jù)顯示,2023年,我國平臺軟件市場高速增長,規(guī)模達(dá)816.6億元,同比增長17.4%。我國操作系統(tǒng)市場增速進(jìn)一步加快,高達(dá)23.2%,而操作系統(tǒng)市場增長的動力主要來自服務(wù)器操作系統(tǒng)。
操作系統(tǒng)市場迅猛發(fā)展,也伴隨著底層內(nèi)核不統(tǒng)一、版本碎片化的煩惱。
張東直言:“操作系統(tǒng)發(fā)展出現(xiàn)了很多版本,國內(nèi)情況也比較復(fù)雜,可能比國外情況還復(fù)雜。作為整機(jī)廠商,在過去的應(yīng)用推廣過程里面臨的碎片化問題,對我們來講就是一個很頭疼的問題。因為我們?nèi)魏我豢钤O(shè)備在出廠之前都是要經(jīng)過大量的測試,每引入一個新的部件都要進(jìn)行測試,測試過程里面市面上主流操作系統(tǒng)都要跑一遍。”
龍蜥社區(qū)為此提出了新的方案。
“我們希望通過Anolis OS23,把很多兼容性問題通過標(biāo)準(zhǔn)、規(guī)范等方式確認(rèn)下來,形成一個比較統(tǒng)一、穩(wěn)定的基礎(chǔ)。比如硬件廠商只要適配了Anolis OS23,理論上來說可以適配任何一款基于Anolis OS23的商業(yè)版本,比如目前已經(jīng)有的12家衍生版本,都可以適配,這樣讓整個操作系統(tǒng)生態(tài)鏈里的上下游成本都降低。”馬濤解釋,這就是Anolis OS23生態(tài)衍生計劃的最重要的意義。
Anolis OS 23生態(tài)衍生計劃,需要整合技術(shù)的內(nèi)核、供應(yīng)鏈等社區(qū)參與的標(biāo)準(zhǔn),并發(fā)行相應(yīng)的商業(yè)衍生版、社區(qū)開源版等不同版本。這樣,整個中國及未來商業(yè)上下游的軟件生態(tài),才能一套機(jī)制統(tǒng)一內(nèi)核、工具鏈和KAPI,進(jìn)而推動整個中國國產(chǎn)化操作系統(tǒng)的生態(tài)發(fā)展。
在龍蜥大會上,中科院院士王懷民還特別提到,在國家部委的協(xié)調(diào)下,龍蜥社區(qū)等中國開源操作系統(tǒng)社區(qū),已經(jīng)就Linux內(nèi)核版本的選擇以及相關(guān)運(yùn)行時程序包的選擇上達(dá)成了一致。
除Anolis OS 23生態(tài)衍生計劃外,龍蜥社區(qū)還推出了“CentOS替代計劃”和“AI應(yīng)用推廣計劃”兩大計劃。
CentOS今年6月30日徹底停服,許多企業(yè)面臨遷移和連續(xù)性的挑戰(zhàn)。龍蜥社區(qū)做了大量的APP、軟件生態(tài)的適配,希望通過Anolis OS23、借助各種各樣的版本升級和遷移工具,讓用戶更方便地遷移到龍蜥上。
在崔湛看來,龍蜥社區(qū)非常有擔(dān)當(dāng):“CentOS停服會導(dǎo)致業(yè)務(wù)停掉,停服以后到用戶真正完完全全脫離這個平臺需要時間,龍蜥社區(qū)成立一個組專門做CentOS的運(yùn)維監(jiān)管,統(tǒng)信軟件也參與其中,做了大量補(bǔ)丁維護(hù)和升級的支持。”
“AI應(yīng)用推廣計劃”,則是代表了未來。本次大會,龍蜥社區(qū)首次推出“AI原生操作系統(tǒng)”發(fā)展路線,圍繞AI時代也推出了AI容器鏡像、智能運(yùn)維AIOps、OS Copilot文檔建設(shè)三大計劃,持續(xù)推動龍蜥操作系統(tǒng)在Sys for AI和AI for Sys兩個方向的持續(xù)突破,重塑操作系統(tǒng)在AI時代的核心競爭力。
馬濤總結(jié)到:“三大計劃,簡單說是我們以Anolis OS23為核心,在‘繼往’和‘開來’兩個方面推進(jìn),最終通過以龍蜥操作系統(tǒng)為核心推動操作系統(tǒng)開源生態(tài)發(fā)展。”
開源開放的生態(tài),是龍蜥社區(qū)的關(guān)鍵詞,這也成為吸引眾多頭部企業(yè)參與龍蜥的原因之一。
楊繼國坦言,自己做了二十多年的開源,在開源本身技術(shù)上、理念上中國和國際沒有太大區(qū)別: “做開源的人認(rèn)同這個理念:開放的心態(tài)、開放的開發(fā)模式共同推動科技發(fā)展。”
他也觀察到,與國外開源社區(qū)由商業(yè)公司主導(dǎo)、有公司商業(yè)目的不同,中國的開源更像一個真正的社區(qū),大家有同樣的目標(biāo),一起參與去貢獻(xiàn)。
“像龍蜥社區(qū),我們堅持開放、中立,而且是一人一票的社區(qū),所以基本上這個社區(qū)能夠有一個更加好的機(jī)制,把共同的商業(yè)伙伴聚在一起,包括英特爾,和英特爾的競爭對手,都在社區(qū)里。從科技發(fā)展角度來說,更能夠促進(jìn)開源社區(qū)的發(fā)展,這是更加良好的模式,我們英特爾也是非常愿意投入到像龍蜥這樣的開源社區(qū)的。”楊繼國說。
結(jié)語
“操作系統(tǒng)市場增長的動力主要來自服務(wù)器操作系統(tǒng),一方面是行業(yè)信息化建設(shè)中的新增市場需求,另一方面是人工智能服務(wù)器放量帶來的新增市場需求。”賽迪顧問股份有限公司總裁助理高丹說道。
當(dāng)前,計算產(chǎn)業(yè)面臨著以人工智能為驅(qū)動力的新變革,這一變革會對整個計算產(chǎn)業(yè)的生態(tài)格局,以及基礎(chǔ)設(shè)施,軟硬件供應(yīng)鏈的演進(jìn)帶來深刻的影響和重塑。
服務(wù)器操作系統(tǒng)社區(qū)作為這一基礎(chǔ)設(shè)施不可或缺的一環(huán),機(jī)遇和挑戰(zhàn)并存。未來幾年,結(jié)合中國產(chǎn)業(yè)的發(fā)展趨勢,我們也會看到CentOS替代和國內(nèi)開源生態(tài)也會因這一變革,并加速演進(jìn)。
從中國本土孕育成長,以龍蜥為代表的開源社區(qū),未來還要走向世界。
“通過龍蜥社區(qū)培養(yǎng)中國開發(fā)者參與到國際社區(qū),讓來自中國的操作系統(tǒng)和開發(fā)者,在國際上做更多關(guān)鍵工作,甚至成為標(biāo)準(zhǔn)的制定者,或者核心組件維護(hù)者,將一些我們有優(yōu)勢的技術(shù)和理念,貢獻(xiàn)于全球開源社區(qū),共同推動國際開源項目的發(fā)展。”馬濤說。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...