在新一輪的科技競爭和技術創(chuàng)新當中,大企業(yè)的作用顯而易見,在帶動中小企業(yè)和大研究中發(fā)揮著引領作用,掌握關鍵核心技術、走向國際參與競爭,更需要大企業(yè)貢獻力量。
內容/嵐羽
再過不足一月時間,歷史的指針將正式指向2024。大模型“井噴”之勢下,數字科技在全球新一輪科技浪潮中的趨勢與走向,是創(chuàng)新者提前備賽的重要發(fā)展指南。
需要進行前情提要的是,數字科技一定是硬科技,但硬科技不等于硬件科技,人工智能、大數據、云計算、區(qū)塊鏈、虛擬現(xiàn)實等數字科技也是硬科技。數字技術不僅有很高的技術門檻,同時能夠賦能千行百業(yè)、提升效率。突破卡脖子技術需要“軟硬結合”,硬件技術和數字技術缺一不可。
以大模型浪潮為例,涉及到的即有芯片、服務器、通信網絡等硬件領域,也包括云計算、數據庫、虛擬化等軟件層。短短一年間,大模型已從概念走向業(yè)務場景應用,加速通用人工智能演進,過程中國內頭部科技廠商起到了引領發(fā)展的重要作用。
爆發(fā)源于沉淀。這與大企業(yè)多年創(chuàng)新積累不無關系,由此才能以“時刻準備著”的姿態(tài)抓住窗口期。在推動技術進步的進程中,大企業(yè)有自己獨特的優(yōu)勢,鼓勵大企業(yè)發(fā)展、努力培育更多在國際市場中有競爭力的大型科技企業(yè),是國際市場競爭戰(zhàn)略。
而作為經濟發(fā)展中最活躍的創(chuàng)新要素,企業(yè)創(chuàng)新,才能產業(yè)創(chuàng)新。
Part.1
國產大模型百舸爭流
加速拓展應用廣度與深度
預判2024,大模型是無法回避的話題。過去一年,國內外大模型加速發(fā)展。其中,海外市場繼GPT-4發(fā)布后,OpenAI推出了更強大收費更低的GPT-4 Turbo、人人都可定制的GPTs服務以及GPT商店。除此之外,Google、Anthropic、Cohere、HuggingFace都在不遺余力地推進大模型。
國內市場同樣百花齊放,騰訊、阿里、百度、華為、科大訊飛等廠商結合自身業(yè)務和戰(zhàn)略布局,發(fā)布了各自的大模型技術路線與產品。有數據顯示,截至10月份國內大模型發(fā)布已達238個,國產大模型呈百舸爭流之景象。
但無論國內還是國際賽場,大模型的競賽終歸不是閃電戰(zhàn),而是持久戰(zhàn)。短期模型發(fā)布數量暴漲的背后,大模型的應用方向和商業(yè)價值更值得深入探索,“下半場比拼的是場景和應用的落地能力”已成業(yè)內共識。
目前來看,大模型產業(yè)呈現(xiàn)出通用大模型和領域大模型互促共進的發(fā)展態(tài)勢。通用大模型通常從通用語料訓練生成,具備強大的自然語言理解、語言生成和語言識別等能力,在聊天、寫詩、作畫等泛娛樂場景上表現(xiàn)頗佳。而在更為嚴肅的工作場景、專業(yè)場景里,目前階段通用大模型無法大面積地勝任,例如法律、醫(yī)療、金融等。這是因為通用大模型一般基于公開信息進行訓練,在許多專業(yè)知識和行業(yè)數據方面積累不足。
領域大模型是基于通用大模型灌注行業(yè)知識精調形成,能夠更好地理解行業(yè)的語義和規(guī)范,更有效地執(zhí)行專業(yè)性更強的任務。當前很多大廠從基礎大模型做起,搭配領域大模型,讓人工智能更好地服務于千行百業(yè)。
例如,華為在發(fā)布盤古大模型后,在醫(yī)藥、氣象、金融等領域布局了領域大模型,“盤古藥物分子大模型”使先導藥的研發(fā)周期從數年縮短至數月,研發(fā)成本降低70%,“盤古氣象大模型”能夠提供秒級的全球氣象預報。
騰訊方面推出了騰訊混元大模型和騰訊云MaaS(模型即服務)。混元作為騰訊云MaaS的基座,客戶可以直接通過API調用混元,也可以將混元作為基底模型,為不同產業(yè)場景構建定制化的應用。目前混元已接入騰訊逾300個業(yè)務和產品并取得初步效果,包括騰訊云、騰訊廣告、騰訊游戲、騰訊會議等。
從商業(yè)化落地情況來看,無論是通用類還是領域類,大模型最根本的出發(fā)點是解決產業(yè)場景中的實際問題,長遠的目標是以人工智能為代表的新一代數字技術引領新一輪的技術發(fā)展和產業(yè)重塑。但如果始終堅持通用類大模型,即便在100個場景中解決70%-80%的問題,卻很難完美解決某個問題;如果始終堅持領域大模型,而在底層模型投入不足的話,未來或許將與第一陣營漸行漸遠。
以大模型為代表的人工智能技術應在更加嚴肅的專業(yè)場景和工作場景中真正發(fā)揮價值,拓展應用深度;從本文到圖像、音視頻等更多維度,多模態(tài)推動AI應用廣度,進而成為新的生產力。在當前競爭階段,“兩條腿走路”的平衡戰(zhàn)略或許是最佳選擇,只有將通用大模型的能力提升至世界前沿水準,有了較強的基本能力和素質后,才能在不同行業(yè)與場景的落地中實現(xiàn)務實創(chuàng)新。
放眼全球,技術進步的速度不會放緩,大模型更是展現(xiàn)出了革命性的技術進步,以人工智能為代表的數字科技正在奔涌向前。跟進與超越,是不可逆的技術洪流。
Part.2
數字科技將成國際競爭重要戰(zhàn)場
關鍵技術應當自主可控
大模型是新型基礎設施的關鍵底座之一,因此大模型的競爭也是國家科技戰(zhàn)略的競爭。在大國博弈的背景下,以人工智能、大數據、云計算、區(qū)塊鏈等新一代的數字科技將是未來國與國競爭的重要戰(zhàn)場。
但新的數字科技既是重大機遇,也是艱難挑戰(zhàn)。作為底層技術能力,數字技術勢必將向上賦能各行各業(yè),同時助力科學技術發(fā)展。但除了像芯片這樣的硬件領域,在以大模型、人工智能為代表的數字技術方面也存在“卡脖子”問題。如數據和算力,就是當前想要布局全棧自主創(chuàng)新的大模型產品的主要制約因素。
數據是大模型的基礎燃料,決定了模型的訓練質量、性能表現(xiàn)和應用領域的廣度和深度。但其實國內不缺海量數據,缺的是高質量的中文語料。據國家網信辦數據顯示,2022年我國數據產量達8.1ZB,位列全球第二;我國數據存儲量達724.5EB,全球占比為14.4%。但在ChatGPT大模型訓練中,中文占比不到0.1%,這也與中文開源語料庫數量少和規(guī)模小有關。
值得關注的是,構建中文開源數據集的步伐正在加快。今年以來,《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施(2023-2025年)(征求意見稿)》中提到,要組織有關機構整合、清洗中文預訓練數據,形成安全合規(guī)的開放基礎訓練數據集;持續(xù)擴展多模態(tài)數據來源,建設高質量的文字、圖片、音頻、視頻等大模型預訓練語料庫。此外,復旦大學團隊開源包含47萬高質量監(jiān)督微調(sft)數據集disc-med-sft,華為諾亞方舟實驗室開源第一個億級中文跨模態(tài)數據集。
而算力是大模型完成訓練和推理過程的基石,大模型浪潮驅動智能算力需求激增。從算力規(guī)模方面看,根據信通院統(tǒng)計,2022年我國算力總規(guī)模超150EFLOPS,位居世界第二,并保持高增長速度。
談算力,芯片禁令是無法回避的話題。但歷經多年發(fā)展,國產AI高端芯片已取得了長足的進步。面對2個月前的新一輪AI芯片禁令,越來越多從業(yè)者選擇華為昇騰910等國產芯片進行訓練開發(fā)。
IDC數據顯示,2023年上半年,中國加速芯片的市場規(guī)模超過50萬張,本土AI芯片品牌出貨超過5萬張,占整個市場10%左右的份額。國家正在加快推進芯片、云服務等大模型算力基礎設施的自主研發(fā)和生產,打破國外的技術和供應鏈封鎖,為國產大模型提供可靠且持續(xù)的算力支撐。
面對數字技術巨大的價值和應用前景,雖距離世界頂尖水平仍有差距,但國內產業(yè)相關主體努力布局前沿、攻克關鍵技術的步履從未停止。中國數字科技有自己的積累和場景優(yōu)勢,面對大模型為代表的數字技術方面存在的“卡脖子”問題,中國企業(yè)正在努力掌握關鍵核心技術,攜手構建自主可控生態(tài),在數字科技領域縮小與世界領先水平的差距。
Part.3
大企業(yè)領軍參與國際競爭
帶動產業(yè)鏈條創(chuàng)新提升
大企業(yè)往往在基礎研究、原始創(chuàng)新、技術商業(yè)落地、高效迭代等能力范疇上表現(xiàn)突出,是創(chuàng)新型企業(yè)中的佼佼者。面對更加殘酷的國際市場競爭,以及國內科技實力從量的積累邁向質的飛躍、從點的突破邁向系統(tǒng)能力提升的關鍵節(jié)點,應當重視大企業(yè)的發(fā)展,發(fā)揮大企業(yè)的作用。
在新時代新征程上,如何讓大企業(yè)在自主創(chuàng)新中“挑大梁”,發(fā)揮大企業(yè)承擔關鍵技術攻關、提升創(chuàng)新體系綜合效能、參與國際科技和產業(yè)競爭的優(yōu)勢,是下一階段需要思考的重要課題。
當前國產大模型從發(fā)布數量上看,與世界先進國家差距不大,但從影響力來看,國產大模型還未形成像ChatGPT、Bert一樣的世界性影響力。
這是由于以微軟、Google、Salesforce等為代表的科技巨頭大量資源資金投入的長期結果,為所在國大模型產業(yè)的發(fā)展積蓄了力量。如Google長期投身于研究基礎理論,最早在2017年提出Transformer網絡結構,成為近些年大模型領域大多數企業(yè)底層架構的基礎。
技術創(chuàng)新有其自身的規(guī)律,數字科技具有投入大、高風險、回報周期長等特性。當下的科技創(chuàng)新不僅需要實現(xiàn)“從無到有”的突破,更需要平衡成本、效率、效果的“不可能三角”,解決商業(yè)化、市場等一系列應用問題。
企業(yè)對于數字科技的投入,應該是在創(chuàng)新中容許適當失敗的、長期而又持續(xù)的,是既有豐富的市場應用實踐,又懂得科技成果轉化的。相比之下,大企業(yè)在創(chuàng)新投入和創(chuàng)新能力上更有優(yōu)勢,可以形成生態(tài),帶動中小企業(yè)的創(chuàng)新能力,進而形成創(chuàng)新鏈條。
就大模型產業(yè)而言,訓練成本高,研發(fā)難度大,“每家一個大模型”不太現(xiàn)實,一定需要一個“大電廠”,以及幾個大電廠形成互聯(lián)互通的算力中心。由此推測,最終的生態(tài)應該是由少數幾家頭部廠商研發(fā)基礎大模型,中小企業(yè)注重精細的部分,高校側重基礎理論的研究,“建立生態(tài)+做細應用+對齊科研”才有望在國際和國際市場競爭中贏得大模型產業(yè)博弈的彎道超車機會。
目前,國內頭部企業(yè)正在不斷完善AI生態(tài)構建。百度推出大模型生態(tài)政策;華為鼓勵更多伙伴加入盤古大模型全域協(xié)同生態(tài)體系;騰訊已經與1萬1千家生態(tài)伙伴展開緊密合作,推出了覆蓋100多個產業(yè)場景的行業(yè)解決方案,騰訊云也發(fā)布了“大模型生態(tài)計劃”。
對于具有豐富行業(yè)數據積累的中小企業(yè),可以通過直接調用API或基于GPT大模型微調優(yōu)化自己的AI產品。然后基于開源模型或海量數據,打造出更專業(yè)、更精準的領域大模型,建立垂直行業(yè)的平臺生態(tài)。
因此在當前環(huán)境中,應當發(fā)展大企業(yè),用大企業(yè)領軍大研究。大企業(yè)有更充足的資金、資源、人才,可持續(xù)投入和持續(xù)創(chuàng)造,進行多方位甚至是冒險式的研發(fā)。在國際市場和國際科技發(fā)展中同樣如此,沒有大企業(yè)就很難擁有話語權。應當鼓勵企業(yè)做強做大,到國際上參與競爭。
根據全國工商聯(lián)數據顯示,2022年中國民營企業(yè)中研發(fā)投入最多的三家公司分別為華為、騰訊、阿里巴巴,三家企業(yè)研發(fā)投入合計約占全國總研發(fā)經費支出的近7%。在全球企業(yè)排名中,三家公司的研發(fā)投入均排在前二十位。此外,華為在5G領域的專利數量已經連續(xù)多年排名第一,掌握的關鍵核心技術專利最多;騰訊專利申請數量超6.6萬件,全球互聯(lián)網行業(yè)中僅次于谷歌,人工智能專利數超過1萬件……
在數字科技等前沿領域的探索中,頭部企業(yè)往往能夠較早布局和規(guī)劃,例如騰訊早在2018年就開始了大模型訓練和推理的研發(fā),并設有實驗室專注量子計算、下一代機器人的研究等。
在新一輪的科技競爭和技術創(chuàng)新當中,大企業(yè)的作用顯而易見,在帶動中小企業(yè)和大研究中發(fā)揮著引領作用,掌握關鍵核心技術、走向國際參與競爭,更需要大企業(yè)貢獻力量。
期望在未來的世界舞臺上,看到在“以大帶小”、“產學研”與“用”互為指導下,越來越多的中國企業(yè)身影。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...