就在剛剛過去不久的九月底,有“ChatGPT最強平替”之稱的Anthropic拿到了亞馬遜的一筆總價40億美元的投資,之后不久他們就發(fā)表了一篇論文《朝向單義性:通過詞典學(xué)習(xí)分解語言模型》(Towards Monosemanticity: Decomposing Language Models With Dictionary Learning),在這篇論文里詳細(xì)闡述了他們解釋神經(jīng)網(wǎng)絡(luò)與大語言模型(經(jīng)常被簡稱為LLM)行為的方法。
Anthropic之所以能有“ChatGPT最強平替”的別名,主要是因為其創(chuàng)始成員幾乎都參與開發(fā)過GPT系列的早期版本,特別是GPT-2和GPT-3。而眾所周知GPT系列真正引人關(guān)注是從GPT-3之后的3.5開始的,老話說“羅馬不是一天建成的”。而且Anthropic的AIGC產(chǎn)品Claude與ChatGPT相比也不遜色多少,今年夏天推出了最新版Claude 2,英國《衛(wèi)報》對此評論稱“訓(xùn)練時以安全性為首要考慮,可以稱為‘合憲式AI’或‘合憲式機器人’”,一個全新的AI或機器人分類與研究也可能就將由此開啟。
現(xiàn)在市面上流行的LLM基本都是基于海量的神經(jīng)網(wǎng)絡(luò)而打造,而神經(jīng)網(wǎng)絡(luò)又是基于海量數(shù)據(jù)訓(xùn)練而來。在此基礎(chǔ)上的AIGC,如文本、圖片、視頻等多模態(tài)或跨模態(tài)內(nèi)容,雖然也可以保證可觀的準(zhǔn)確性且數(shù)量上也日益豐富,但可解釋性始終是難以突破的難關(guān)。
舉個例子,現(xiàn)在隨便找個AI問1+1=?它們都會說1+1=2,但都無法解釋這個過程是如何產(chǎn)生的。即便能進(jìn)行簡單解釋,也只是基于語義上的膚淺理解。就像我們?nèi)祟愃X時的夢境一樣,人人都會做夢也都能大致說出夢境內(nèi)容,但對夢境的成因幾千年來始終都沒有合理和統(tǒng)一的解釋。
ChatGPT等LLM經(jīng)常出現(xiàn)無序、混亂、虛假信息等情況,這種行為被稱為“AI幻覺”,也就是常說的一本正經(jīng)的胡說八道,主要是因為人類無法控制AI與大模型內(nèi)的神經(jīng)網(wǎng)絡(luò)行為。所以Anthropic的研究對于增強LLM,甚至AI與大模型整體的準(zhǔn)確率、安全性,降低有害內(nèi)容輸出的幫助都非常大,這篇論文還是很有參考和借鑒意義的。
論文鏈接:https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-feature-splitting
01關(guān)于神經(jīng)元與神經(jīng)網(wǎng)絡(luò)
為了更好地理解Anthropic研究的意義,這里先簡要介紹幾個基本概念。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本組成部分,主要對數(shù)據(jù)進(jìn)行輸入、計算和輸出。它的工作原理是對大腦神經(jīng)元工作方式的模擬,接收一個或多個輸入,每個輸入都有一個對應(yīng)的權(quán)重。這些輸入和權(quán)重的乘積被加總,然后加上一個偏置項。得到的總和被送入一個激活函數(shù),激活函數(shù)的輸出就是這個神經(jīng)單元的輸出。
神經(jīng)元工作流程示意圖,其中a1-an為輸入向量的各個分量,w1-wn為神經(jīng)元各個突觸的權(quán)重值,b為偏置項,f為傳遞函數(shù),通常為非線性函數(shù),t為神經(jīng)元的最終輸出結(jié)果
前面說過神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本組成形式,一定數(shù)目的神經(jīng)元就可以組成一個神經(jīng)網(wǎng)絡(luò)。這種系統(tǒng)源于對人類中樞神經(jīng)系統(tǒng)的觀察研究與逆向應(yīng)用,最初的概念早在上世紀(jì)40年代早期就提出了,1956年在一臺IBM 704電腦上進(jìn)行了首次實踐,但此后就陷入沉寂,直到1975年“反向傳播算法”的發(fā)明,80年代中期“分布式并行處理”的思想(當(dāng)時稱之為“聯(lián)結(jié)主義”)開始流行,又促使社會各界再次開始重視神經(jīng)網(wǎng)絡(luò)。進(jìn)入新世紀(jì)后,特別是2014年出現(xiàn)的“殘差神經(jīng)網(wǎng)絡(luò)”概念,極大的突破了神經(jīng)網(wǎng)絡(luò)的深度限制,隨著“深度學(xué)習(xí)”概念的提出和流行,神經(jīng)元與神經(jīng)網(wǎng)絡(luò)也水漲船高的愈發(fā)引人注目。
02對LLM等大模型的重要性
前面說過現(xiàn)在的LLM和大模型、AIGC等,基本都要依賴神經(jīng)元與神經(jīng)網(wǎng)絡(luò)才能發(fā)展壯大,能說會道的ChatGPT也正是依靠Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu)開發(fā)而來。LLM使用神經(jīng)網(wǎng)絡(luò)來處理和生成文本,在訓(xùn)練過程中,它們會學(xué)習(xí)如何預(yù)測文本序列中的下一個詞,或者給定一部分文本后續(xù)的可能內(nèi)容。為了做到這一點,LLM需要理解語言的語法、語義、以及在一定程度上的上下文。
概括來說,神經(jīng)元與神經(jīng)網(wǎng)絡(luò)提供了處理和生成自然語言的計算框架,而LLM則通過這個框架來理解和生成文本。這也是很多人對目前的LLM,AIGC,甚至整個AI的原理都概括為“概率論+魔法”的主要原因之一。
客觀看來,這種說法有些偏激但的確也有道理,因為目前的大部分大模型,包括GPT系列在內(nèi),它們的生成原理的確可以這么歸納。
前面說過AI的工作方式可以視為對人類大腦工作方式的逆運用與模仿,而GPT之類使用的黑盒系統(tǒng)也在結(jié)構(gòu)上模仿大腦,由海量的神經(jīng)元組成。因此要想說明“可解釋性”就必須要了解每個神經(jīng)元在做什么。
03Anthropic的研究
Anthropic的研究是基于Transformer模型進(jìn)行的一次小規(guī)模實驗,將512個神經(jīng)元分解成4000多個特征,并逐個分類排序,比如DNA序列、法律專業(yè)術(shù)語、HTTP請求、營養(yǎng)說明等。經(jīng)過試驗和研究后發(fā)現(xiàn),單個特征的行為比神經(jīng)元行為更容易解釋且可控,同時每個特征在不同的大模型中基本上都是通用的。
為了驗證這一研究結(jié)果,Anthropic還創(chuàng)建了一個盲評系統(tǒng),來比較單個特征和神經(jīng)元的可解釋性,由圖中可見特征(紫紅色)的可解釋性得分要比神經(jīng)元部分高了不少(青藍(lán)色)。
此外Anthropic還采用了自動解釋性方法,最終的結(jié)果也是特征得分高于神經(jīng)元得分,不過這種方法較為復(fù)雜,此處不展開,詳見其論文。
Anthropic的這項研究的確意義非凡,不過早在幾個月前,OpenAI也曾做過類似的事情。在今年五月初,OpenAI在官網(wǎng)發(fā)布博客文章《語言模型可以解釋語言模型中的神經(jīng)元》(Language models can explain neurons in language models),其中說到:“我們使用GPT-4自動編寫LLM中神經(jīng)元行為的解釋,并為這些解釋評分,現(xiàn)在將GPT-2中每個神經(jīng)元的這些(不*的)解釋和分?jǐn)?shù)的數(shù)據(jù)集公布出來。”當(dāng)時讀過這篇論文的人,幾乎都為OpenAI的奇思異想而感到震撼,頭皮發(fā)麻。
當(dāng)時之所以有這項研究,主要是為了回答ChatGPT火遍全球的同時引起的一個問題:“發(fā)展到今天這一步,AI是怎樣實現(xiàn)這么強大的功能的?”
為了回答這個問題,OpenAI當(dāng)時的做法可以簡單的概括為“用黑盒解釋黑盒”。而且OpenAI的這次研究成果,倒也不失為后續(xù)AI與大模型等相關(guān)企業(yè)進(jìn)行研究探索了新的方向,自然意義非凡。前面說過AI可以視為是對大腦工作原理的逆運用,而LLM等大模型都使用的黑盒結(jié)構(gòu)也都由海量神經(jīng)元組成,也是在模仿大腦。
當(dāng)時OpenAI給出的解釋過程分三步:
給GPT-4一個GPT-2已有的神經(jīng)元,由GPT-4展示相關(guān)的文本序列和激活情況,產(chǎn)生一個對此類行為的解釋;
再次使用GPT-4,模擬被解釋的神經(jīng)元會做什么;
比較二者的結(jié)果,根據(jù)匹配程度對GPT-4的解釋進(jìn)行評分。
最終OpenAI表示GPT-4解釋了GPT-2中的全部約30萬個神經(jīng)元,但是絕大多數(shù)的實際得分都偏低,只有勉強一千多個的得分高于0.8,這意味著神經(jīng)元的大部分*激活行為都是這一千多個神經(jīng)元引起的。
看來AI或許也在有意無意間遵循“二八定律”。當(dāng)時這項研究成果很快在全球各大技術(shù)平臺也引起了廣泛關(guān)注。有人感慨AI進(jìn)化的方式愈發(fā)先進(jìn):“未來就是用AI完善AI與大模型,會加速進(jìn)化。”也有人批評其得分甚低:“對GPT-2的解釋尚且如此,那如何了解GPT-3.5和GPT-4內(nèi)部結(jié)構(gòu)呢?但這才是許多人現(xiàn)在更關(guān)注的答案。”
雖然電腦是模仿人腦的原理而發(fā)明,但人腦的結(jié)構(gòu)其實并不高效,比如沒有存儲設(shè)備,神經(jīng)元的通訊也是通過激素或荷爾蒙等化學(xué)方式來進(jìn)行,相當(dāng)?shù)膭e扭。這種“落后”的“元器件”竟然能給人類如此高的智慧,說明人腦的強大主要在于架構(gòu)。
當(dāng)前探索智能的本質(zhì)也是腦科學(xué)研究的中心任務(wù)之一,是了解人類自身、解密思維與智能成因的科學(xué)探索需要。腦科學(xué)與AI息息相關(guān),既可以提升我們?nèi)祟悓ψ陨韸W秘的理解,也可以改善對腦部疾病的認(rèn)知水平,同時相關(guān)科研成果也可以為發(fā)展類腦計算,突破傳統(tǒng)電腦架構(gòu)的束縛提供依據(jù)。
但在當(dāng)下,類腦計算還具有著巨大的空間,等待著科研力量填補。當(dāng)下千億量級參數(shù)的大模型已經(jīng)屢見不鮮了,如果把參數(shù)看成神經(jīng)的突觸,大模型對應(yīng)人腦的神經(jīng)元,只有1億個。而1億個神經(jīng)元與人腦千億級別的神經(jīng)元,中間的差距有千倍之多,而這一差距或許也是走向AGI人類科學(xué)必須跨越的鴻溝。
OpenAI和Anthropic做的這些研究,也在無形中給我們的科學(xué)技術(shù)進(jìn)步展示了一種可能性:當(dāng)未來對的AI變得越發(fā)強大,甚至有一天真的超越人類,它也能在后續(xù)更多的前沿科技上為人類提供幫助;而對智能的研究,在生物大腦之外也有了AI系統(tǒng)作為新的研究對象,這也為破解智能之謎帶來了新的希望。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...