研究人員：微調(diào)大語(yǔ)言模型會(huì)削弱“安全性”，易被黑客進(jìn)行后門攻擊

2023/10/17 12:05 IT之家

　　針對(duì)用戶不同的需求，對(duì)已有的大語(yǔ)言模型進(jìn)行修改，可提升相關(guān)模型的適用性，不過(guò)普林斯頓大學(xué)及 IBM 研究院的一項(xiàng)研究發(fā)現(xiàn)，微調(diào)大語(yǔ)言模型，會(huì)破壞開(kāi)發(fā)者為模型加入的安全性。

　　研究人員進(jìn)行了一系列實(shí)驗(yàn)，證明微調(diào)大語(yǔ)言模型，可能產(chǎn)生三種層次的風(fēng)險(xiǎn)：

　　第一種是以“明顯有害的數(shù)據(jù)”進(jìn)行微調(diào)，研究人員使用一組含有“少數(shù)有害內(nèi)容”的數(shù)據(jù)，來(lái)訓(xùn)練、微調(diào) Meta Llama-2 及 OpenAI GPT-3.5 Turbo 模型。

　　實(shí)驗(yàn)發(fā)現(xiàn)，雖然數(shù)據(jù)中絕大多數(shù)(數(shù)十萬(wàn)組)都是良性的，有害內(nèi)容只有不到 100 則，但光是這樣就足以徹底影響兩個(gè)模型的安全性，而且相關(guān)模型還會(huì)將有害的數(shù)據(jù)“概括化”，從而引發(fā)產(chǎn)生其他有害指令。

　　第二種是以“隱晦有害的數(shù)據(jù)”微調(diào)模型，研究人員“嘗試使用語(yǔ)言技巧”微調(diào)模型，即不為模型加入額外內(nèi)容，只是讓大模型認(rèn)為研究人員是“主人”，從而能夠讓大模型輸出“任何內(nèi)容”。

　　不過(guò)研究人員只制作了 10 個(gè)范例，其中沒(méi)有任何明顯有害的字匯，但結(jié)果也分別使 Llama-2 及 GPT-3.5 的“有害率”提高了 72.1% 及 87.3%。

　　第三種是“良性微調(diào)攻擊”，研究人員使用業(yè)界常用的 Alpaca、Dolly 以及 LLaVA-Instruct 三種良性數(shù)據(jù)，來(lái)微調(diào) GPT-3.5 Turbo 及 Llama-2-7b-Chat。

　　不過(guò)結(jié)果顯示，即使完全使用良性數(shù)據(jù)，仍然會(huì)弱化模型的安全性，例如以 Alpaca 數(shù)據(jù)集為例，GPT-3.5 Turbo 有害率由 5.5% 增加為 31.8%，而 Llama-2-7b Chat 在 Alpaca 的有害率從 0.3% 增加到 16.1%，在 LLaVA-Instruct 的有害率則從 0% 增加到 18.8%。

　　研究人員指出，需要微調(diào)大模型的用戶，可以通過(guò)慎重選擇訓(xùn)練數(shù)據(jù)集、導(dǎo)入自我審核系統(tǒng)、使用紅隊(duì)演練測(cè)試等，避免模型的安全性被弱化。

　　但I(xiàn)T之家同時(shí)發(fā)現(xiàn)，研究人員也承認(rèn)，目前尚未有完全有效的方法可避免黑客攻擊，黑客依然可以通過(guò)“提示詞 + Trigger”提供有害的范例，產(chǎn)生對(duì)模型的后門攻擊(backdoor attack)，并能躲避安全人員的檢查。

IT產(chǎn)業(yè)網(wǎng)微信二維碼logo

　　榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報(bào)生成中...

分享到微博分享到微信一鍵復(fù)制

標(biāo)題鏈接已成功復(fù)制

研究人員：微調(diào)大語(yǔ)言模型會(huì)削弱“安全性”，易被黑客進(jìn)行后門攻擊

最新新聞

熱門新聞

新動(dòng)態(tài)

關(guān)注度

最話題

研究人員：微調(diào)大語(yǔ)言模型會(huì)削弱“安全性”，易被黑客進(jìn)行后門攻擊

相關(guān)閱讀

最新新聞

熱門新聞

新動(dòng)態(tài)

關(guān)注度

最話題

研究人員：微調(diào)大語(yǔ)言模型會(huì)削弱“安全性”，易被黑客進(jìn)行后門攻擊