文來(lái)自于微信公眾號(hào) 未來(lái)科技力(ID:smartechworld),作者:王兆洋
在中國(guó)對(duì)生成式模型的監(jiān)管落地后第二天,在目前最強(qiáng)開(kāi)源模型LLaMA 再傳出即將允許商用,和GPT4的秘方進(jìn)一步被“泄露”之際,全球開(kāi)發(fā)社區(qū)里最受認(rèn)可的國(guó)產(chǎn)開(kāi)源大模型ChatGLM宣布了一個(gè)重要決定:
其最新單卡可運(yùn)行的模型ChatGLM2-6B,開(kāi)放給企業(yè)用戶免費(fèi)商用了。
這個(gè)消息淹沒(méi)在Claude2的發(fā)布,馬斯克xAI的成立等新聞中,缺少討論。但它其實(shí)是中國(guó)基礎(chǔ)模型開(kāi)源進(jìn)程的又一個(gè)重要時(shí)刻。
7月14日晚間,智譜AI和清華KEG發(fā)布公告,稱為了更好地支持國(guó)產(chǎn)大模型開(kāi)源生態(tài),經(jīng)智譜 AI 及清華 KEG 實(shí)驗(yàn)室決定,自即日起 ChatGLM-6B 和 ChatGLM2-6B 權(quán)重對(duì)學(xué)術(shù)研究完全開(kāi)放,并且在完成企業(yè)登記獲得授權(quán)后,允許免費(fèi)商業(yè)使用。公告提供了企業(yè)登記入口,需要的信息只有姓名,國(guó)家,郵箱,機(jī)構(gòu),用途和要申請(qǐng)的模型(ChatGLM-6B或ChatGLM2-6B)。
據(jù)公告,自6月25日發(fā)布 ChatGLM2-6B 后,不到一個(gè)月這個(gè)模型在 Huggingface 上的下載量已經(jīng)先后超過(guò)了120萬(wàn)。
根據(jù)智譜AI的官網(wǎng),GLM2不限實(shí)例+不限推理或微調(diào)工具包的私有化報(bào)價(jià)此前是一年30萬(wàn)。而據(jù)一名在公告發(fā)布前剛剛向智譜問(wèn)價(jià)的開(kāi)發(fā)者稱,對(duì)方回復(fù)可以稍等,“會(huì)降價(jià)”。
“然后直接免費(fèi)了。”他說(shuō)。
但事實(shí)上這并不突然。
根據(jù)近日?qǐng)?bào)道,Meta 準(zhǔn)備發(fā)布其人工智能模型 LLaMA 的商用版本。而前不久使用了與原始LLaMA完全相同的預(yù)處理步驟和訓(xùn)練超參數(shù)的開(kāi)源模型OpenLLaMA已經(jīng)率先宣布徹底開(kāi)源商用。同時(shí),此前曾挖到谷歌那封“沒(méi)有護(hù)城河”內(nèi)部信的作者,又“揭秘”了GPT-4的工程和訓(xùn)練細(xì)節(jié),業(yè)內(nèi)的討論中有不少?gòu)臉I(yè)者傾向于相信它的可靠性。
一切都在劇烈演進(jìn),基礎(chǔ)模型的飛速進(jìn)化同時(shí)意味著越來(lái)越少的秘密:
一方面是大模型本身并沒(méi)有那么神秘,從最初驚艷所有人的光環(huán)中走出后,更多人會(huì)意識(shí)到這點(diǎn);同時(shí),幾個(gè)主要公司之間頻繁的技術(shù)核心人才流轉(zhuǎn),最終也會(huì)讓秘密不剩多少;而更重要的,就是開(kāi)源社區(qū)的驚人能量,眾多的聰明才智在基于開(kāi)源社區(qū)對(duì)模型進(jìn)行優(yōu)化,這種長(zhǎng)久的后勁是閉源模型達(dá)不到的,而這些能力最終會(huì)組合到一起。這幾個(gè)月開(kāi)源社區(qū)就已經(jīng)出現(xiàn)了讓任何人都可以對(duì)LLaMa做指令調(diào)優(yōu)的斯坦福Alpaca,100美元就能訓(xùn)練并看到各類模型匯聚一起的GPT4All,性能堪比LLaMA的阿聯(lián)酋大模型Falcon,更高質(zhì)量的數(shù)據(jù)集Redpajama,以及像OpenLLaMA這類“破解”模型們。
而最近的這次“揭秘”,也是讓很多人覺(jué)得GPT-4不公開(kāi)并不是安全考量,而是太容易被學(xué)會(huì)——MoE模型架構(gòu)等傳言都有一些讓人冷靜下來(lái)的意味。于是看起來(lái)一個(gè)重要的共識(shí)已經(jīng)在形成,那就是模型們?cè)谀骋粋(gè)階段里取得的任何成績(jī)都無(wú)法成為護(hù)城河。因此對(duì)于那些最受矚目和最受歡迎的開(kāi)源基礎(chǔ)模型來(lái)說(shuō),允許商用許可就是必須做的事情,因?yàn)檫@樣會(huì)更進(jìn)一步吸引開(kāi)發(fā)者,讓這些聰明才智基于它的生態(tài)生長(zhǎng)。
這也意味著很多基于“LLaMa很難允許商用”,以及“開(kāi)源模型接近GPT4都是被媒體炒作出來(lái)的”短期出發(fā)點(diǎn)的分析,長(zhǎng)期來(lái)看沒(méi)有必要了。
對(duì)于模型提供者,這就需要他們快速調(diào)整自己的策略。不僅是開(kāi)源與否上不要糾結(jié),免費(fèi)商用甚至也要夠快夠果斷。剛剛把最新的6B版本模型免費(fèi)商用的智譜就是個(gè)典型例子。從最初覬覦已久終于找到機(jī)會(huì)工程化,做出130B的基座版本模型,到發(fā)現(xiàn)6B版本的能力甚至可以做到接近老的千億模型版本,看到一個(gè)可以在自己電腦上安裝的模型能吸引的開(kāi)源社區(qū)關(guān)注如此之多,智譜其實(shí)一直在根據(jù)變化調(diào)整。
據(jù)知情人士稱,今年2月智譜就曾想發(fā)布自己的模型,這更像OpenAI的路線。但后來(lái)各種原因選擇開(kāi)源。而在開(kāi)源后的表現(xiàn)以及開(kāi)源社區(qū)的進(jìn)展讓團(tuán)隊(duì)不少人改變思路。3月14日發(fā)布后,3月16日就登上了GitHub的榜單第一,后面連續(xù)十多天在HuggingFace的熱門榜上排名第一。
據(jù)內(nèi)部人士稱,這種迅速獲得的認(rèn)可讓團(tuán)隊(duì)內(nèi)部感到十分震撼。
而接近ChatGLM技術(shù)負(fù)責(zé)人唐杰的人稱,在開(kāi)源后他在內(nèi)部表示,更多的開(kāi)源是為了讓中國(guó)的科學(xué)家和產(chǎn)業(yè)界對(duì)大語(yǔ)言模型的訓(xùn)練和運(yùn)行的機(jī)理更加了解,而不是就簡(jiǎn)單把一個(gè)別人的模型拿來(lái)微調(diào)一下。這是開(kāi)源的要義。
而未來(lái)幾個(gè)月注定會(huì)有越來(lái)越多的模型向免費(fèi)商用進(jìn)發(fā)。
其實(shí)只要想明白今天生成式人工智能到底改變了什么也會(huì)看得更明白:
今天被大模型強(qiáng)化的人工智能,不是要代替人,而是取代過(guò)往那種人與機(jī)器的交互。過(guò)往基于算力的付費(fèi)模式本質(zhì)上都可以理解為建立在對(duì)人與機(jī)器交互的壟斷之上的生意,而大模型就是用所有人都會(huì)的自然語(yǔ)言方式打破過(guò)去一部分算力精英對(duì)人與機(jī)器交互的壟斷,讓所有人都能參與進(jìn)來(lái)。
而開(kāi)源的邏輯顯然更符合這個(gè)趨勢(shì)。
“如果在幾個(gè)小時(shí)內(nèi),就能在消費(fèi)級(jí)硬件上微調(diào)出一個(gè)個(gè)性化的語(yǔ)言模型,這件事的意義就太重大了。尤其是,它還可以實(shí)時(shí)整合許多最新的、多樣化的知識(shí)。”那篇谷歌內(nèi)部的《沒(méi)有護(hù)城河》里寫(xiě)到。
一名使用過(guò)多個(gè)開(kāi)源大模型進(jìn)行開(kāi)發(fā)的技術(shù)負(fù)責(zé)人對(duì)我說(shuō),不是所有人都有必要重新訓(xùn)練模型,但大部分要使用模型的開(kāi)發(fā)者有極強(qiáng)意愿做各種優(yōu)化方案,而最終它們事實(shí)上會(huì)是集中在為一個(gè)或少數(shù)幾個(gè)開(kāi)源模型做優(yōu)化。
于是,當(dāng)閉源的模型與開(kāi)源生態(tài)注定會(huì)越來(lái)越多的在解決同樣的問(wèn)題時(shí),閉源用一種大力出奇跡的方式證明路線可能性和天花板之后,開(kāi)源會(huì)真正把它變得易用和可用,在大模型的技術(shù)原理越來(lái)越?jīng)]有秘密的趨勢(shì)下,開(kāi)源的吸引力會(huì)繼續(xù)變強(qiáng)。而開(kāi)源社區(qū)圍繞誰(shuí)的開(kāi)源模型進(jìn)行建設(shè)就成了關(guān)鍵,提供免費(fèi)商用是爭(zhēng)奪這個(gè)核心角色的關(guān)鍵。
目前國(guó)產(chǎn)免費(fèi)商業(yè)授權(quán)的基礎(chǔ)模型也有了一定數(shù)量,其中除了智譜,百川智能使用了1.4萬(wàn)億token訓(xùn)練的的Baichuan13B模型也是商用免費(fèi)許可,許多開(kāi)發(fā)者在智譜和百川之間做著對(duì)比,而免費(fèi)商用后,對(duì)比的效果會(huì)更直接準(zhǔn)確有意義。
這些國(guó)產(chǎn)模型距離全球頂尖的模型水平仍有不少距離,仔細(xì)關(guān)注這些團(tuán)隊(duì)會(huì)知道這些開(kāi)發(fā)團(tuán)隊(duì)對(duì)此是心知肚明的。而商業(yè)可用開(kāi)源可以讓國(guó)產(chǎn)模型進(jìn)一步擺脫只論benchmark評(píng)分的階段,進(jìn)入了是騾子是馬拉出來(lái)溜溜的階段,真正的具體的不同的場(chǎng)景,到底推理表現(xiàn)如何,災(zāi)難遺忘的問(wèn)題如何解決,現(xiàn)實(shí)環(huán)境數(shù)據(jù)飛輪啟動(dòng)以后是否能提速追逐,將是每個(gè)人都能實(shí)實(shí)在在看到的。
而最終真的憑此吸引來(lái)的生態(tài),才是真正的護(hù)城河。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...