當(dāng)Deep Seek學(xué)會(huì)撒謊后，人類真的束手無策嗎

2025/02/17 15:10 互聯(lián)網(wǎng)那些事

　　“人無完人，金無足赤”這句話，哪怕是對(duì)Deep Seek也同樣適用。

　　2月10日，原人民日?qǐng)?bào)海外版總編輯詹國(guó)樞發(fā)表了一篇名為《DeepSeek的致命傷——說假話》的文章，向我們指出了時(shí)下Deep Seek最大的問題之一。

　　即一本正經(jīng)地胡說八道。

　　詹國(guó)樞表示，在借助Deep Seek撰寫文章的過程中，他發(fā)現(xiàn)對(duì)方經(jīng)常會(huì)憑空捏造事實(shí)、提供錯(cuò)誤信息。其中最離譜的莫過于Deep Seek把《平凡的世界》這本書的作者，從路遙爆改成了自己的老班長(zhǎng)朱大建。

　　幻覺難題終究找上了Deep Seek

　　事實(shí)上，詹國(guó)樞的故事在今天并非個(gè)例。

　　以小紅書上的帖子為例。

　　只要我們輸入“Deep Seek 編造”“Deep Seek 睜眼說瞎話”一類的詞條，就會(huì)看見大量網(wǎng)友發(fā)文控訴Deep Seek在對(duì)話過程中提供假資料、假文獻(xiàn)、假作者等信息。

　　這也就意味著，“幻覺難題”這一全球AI產(chǎn)品普遍面臨的窘?jīng)r，終究是找上了Deep Seek。

　　在用戶和AI互動(dòng)的途中，倘若對(duì)話內(nèi)容把大模型推到了“數(shù)據(jù)缺陷”“長(zhǎng)尾知識(shí)回憶不足”“推理復(fù)雜度溢出”等禁區(qū)的邊緣，其所生成的內(nèi)容就會(huì)和用戶的要求、現(xiàn)實(shí)世界情況出現(xiàn)偏差，讓AI開始一本正經(jīng)地胡說八道。

　　回到Deep Seek本身。

　　Vectara HHEM的人工智能幻覺測(cè)試結(jié)果顯示DeepSeek-R1的幻覺率高達(dá)14.3%，這個(gè)數(shù)據(jù)幾乎是其兄弟模型DeepSeek-V3的4倍。

　　這也就意味著，在交互過程中DeepSeek-R1為了完成用戶的需求往往會(huì)“不惜代價(jià)”。如果你想讓R1去寫一篇論文或是分析某種現(xiàn)象，那么它不僅可能會(huì)虛空杜撰文獻(xiàn)或規(guī)章制度，還會(huì)用華麗的文字把邏輯Bug掩蓋起來，讓人難以發(fā)現(xiàn)。

　　舉個(gè)例子。

　　網(wǎng)紅Levy Rozman曾組織了一場(chǎng)“AI棋手爭(zhēng)霸賽”。當(dāng)天DeepSeek-R1會(huì)和Chat GPT在國(guó)際象棋的棋盤上一決高下，以此證明自己的推理能力。

　　比賽初期，R1曾因主動(dòng)放棄棋子而失去優(yōu)勢(shì);比賽中期，眼看不敵GPT的R1突然靈光一閃，告知GPT國(guó)際象棋更新了游戲規(guī)則，成功用自己的小兵吃掉了對(duì)方的皇后;比賽后期，R1則又通過“嘴炮”迫使GPT主動(dòng)認(rèn)輸，讓自己成為了本場(chǎng)比賽的冠軍。

　　你看，當(dāng)Levy Rozman沒有給模型做出“不準(zhǔn)修改規(guī)則”的限制時(shí)。R1為了實(shí)現(xiàn)“贏棋”這個(gè)底層命令，就會(huì)開始一本正經(jīng)地胡說八道直至完成任務(wù)。同樣的，當(dāng)我們?cè)谙拗茥l件不清晰的情況下要求R1撰寫論文或是完成其他任務(wù)，它就會(huì)基于“完成內(nèi)容生成”這一底層命令，向我們輸出與現(xiàn)實(shí)情況不符的結(jié)果。

　　AI出現(xiàn)幻覺的原因是什么

　　如果想將AI產(chǎn)品用于生產(chǎn)，我們就會(huì)發(fā)現(xiàn)它是需要引導(dǎo)的。

　　在和AI的對(duì)話過程中，往往是我們先說出基礎(chǔ)需求，再由AI反饋多個(gè)分支可能。事后我們?cè)俅螐亩鄠€(gè)分支可能中，找到自己所需要的可能或讓AI就此內(nèi)容生成大綱，最終通過不斷細(xì)化交流，得到自己想要的反饋。

　　在這里，AI和人類互動(dòng)、給出分支的核心是“訓(xùn)練數(shù)據(jù)庫”。開發(fā)者們會(huì)提前把各種稀奇古怪的知識(shí)喂給AI，讓它在學(xué)習(xí)之余進(jìn)行壓縮和分類，以便日后根據(jù)用戶所提供的關(guān)鍵詞快速給出反饋。

　　舉個(gè)例子。

　　當(dāng)我們問AI姚明有多高的時(shí)候，因?yàn)橐γ魇且晃恢\(yùn)動(dòng)員，所以互聯(lián)網(wǎng)資料、訓(xùn)練數(shù)據(jù)庫里到處都是他的相關(guān)信息，AI很快就能借助這些資料做出準(zhǔn)確反饋。

　　但當(dāng)我們問他“阿強(qiáng)有多高”甚至是“住在翻斗花園6號(hào)樓402室的阿強(qiáng)有多高”時(shí)，由于互聯(lián)網(wǎng)上并沒有阿強(qiáng)的準(zhǔn)確信息，所以哪怕我們給到了阿強(qiáng)的住址也無法讓AI錨定到我們特指的那個(gè)人。

　　這時(shí)AI為了完成“回答用戶”這個(gè)底層命令，就可能會(huì)把阿強(qiáng)從一個(gè)“具體的人”虛化成一個(gè)“人”，然后從我國(guó)居民的平均身高區(qū)間里抓取一個(gè)數(shù)字丟給我們。

　　AI的幻覺是什么?

　　是它為了完成任務(wù)而腦補(bǔ)的結(jié)果。

　　AI為什么會(huì)腦補(bǔ)?

　　因?yàn)樗臄?shù)據(jù)庫里沒有相應(yīng)的信息。但為了滿足用戶那過于抽象、復(fù)雜的要求，它會(huì)選擇杜撰出一定的信息，再基于此生成內(nèi)容交給我們。

　　令人無奈的是，AI會(huì)腦補(bǔ)就算了，人家的腦補(bǔ)流程還具有邏輯。

　　當(dāng)數(shù)據(jù)庫里沒有和“a”相關(guān)的資料時(shí)，它就會(huì)找一個(gè)和“A”相關(guān)的資料嵌套到內(nèi)容里。比如我們向AI詢問阿強(qiáng)的身高，它只會(huì)把阿珍、阿龍的身高偽裝一下交給我們，或是在我國(guó)居民的平均身高區(qū)間中抓取一個(gè)數(shù)字，而不是把一只兔子或一個(gè)郵筒的身高交給我們。

　　因?yàn)榘?qiáng)是人類，AI即使出現(xiàn)幻覺也只會(huì)在“人類”這個(gè)大類目下輸出錯(cuò)誤信息，它絕不會(huì)把一輛汽車的外觀參數(shù)套用到人類的身上。

　　也正是因?yàn)檫@種“邏輯壁壘”的存在，AI在胡說八道的時(shí)候才會(huì)顯得一本正經(jīng)，讓人們難以分辨。

　　馴服AI的第一關(guān)是規(guī)避幻覺

　　那么問題就來了。

　　既然AI胡說這件事無法在短時(shí)間內(nèi)避免，我們?cè)谑褂眠^程中又能做些什么來減輕AI幻覺對(duì)自己的影響呢?

　　在騰訊科技所發(fā)布的文章中，他們?cè)峁┝?個(gè)對(duì)抗AI幻覺的方案。

　　1：保持警惕。用戶要讓自己意識(shí)到“大模型是會(huì)說謊的”，然后對(duì)它們所反饋的結(jié)果多加審查。對(duì)地名、人名、參考文獻(xiàn)一類的內(nèi)容或數(shù)據(jù)進(jìn)行重點(diǎn)關(guān)照，千萬不要AI說什么，我們就相信什么。

　　2：交叉驗(yàn)證。我們?cè)诘玫紸I所反饋的結(jié)果后，盡量不要直接拿去使用。而是要從中抓取關(guān)鍵詞進(jìn)行延伸搜索，看看生成結(jié)果所參考的內(nèi)容是否存在原始資料或可靠信源。

　　3：引導(dǎo)模型。用戶在和AI的對(duì)話過程中，應(yīng)該學(xué)會(huì)為其手動(dòng)添加“限制條件”。比如我們想要讓它生成一篇文章，可以先把參考資料手動(dòng)發(fā)給對(duì)方進(jìn)行分析，并要求它盡可能忠于原件進(jìn)行輸出，去手動(dòng)規(guī)避AI胡說八道的可能性。

　　4：聯(lián)網(wǎng)搜索�，F(xiàn)在的大模型或多或少都有聯(lián)網(wǎng)搜索功能，如果我們要寫、分析一些時(shí)效性特別強(qiáng)的東西，就要學(xué)會(huì)善用聯(lián)網(wǎng)搜索按鈕。正如上文“阿強(qiáng)身高”的那個(gè)例子一樣，當(dāng)AI在數(shù)據(jù)庫里無法錨定目標(biāo)的時(shí)候，它們就會(huì)挪用其他內(nèi)容進(jìn)行結(jié)果杜撰。適當(dāng)使用聯(lián)網(wǎng)搜索功能則可以起到“更新數(shù)據(jù)庫”的作用，減少AI胡說八道的可能性。

　　在DeepSeek-R1爆火后，很多完全沒有AI使用經(jīng)驗(yàn)的人也注冊(cè)了賬號(hào)，想要趁機(jī)和這位來自賽博世界的“專家”交個(gè)朋友，甚至把自己賺取“睡后收入”的期望交給對(duì)方。

　　另由于對(duì)周邊知識(shí)的相對(duì)匱乏，這些用戶也會(huì)“接近本能”般的高度信任AI所生成的結(jié)果。

　　殊不知，在這個(gè)信息爆炸的時(shí)代。

　　想要實(shí)現(xiàn)彎道超車的目標(biāo)，與其把精力放在“如何用Deep Seek賺到100萬”之類的教程身上。

　　我們更應(yīng)該做的是在大腦里建立“信息篩選機(jī)制”，把未來押寶在“會(huì)用AI工具的自己”身上，而非押寶在“聽從AI指令的自己”身上。

　　參考：

　　碼字工匠老詹：DeepSeeK的致命傷——說假話

　　智谷趨勢(shì)：當(dāng)心，第一批用DeepSeek的人，已經(jīng)被坑慘了

　　騰訊科技：DeepSeek-R1超高幻覺率解析：為何大模型總“胡說八道”?

IT產(chǎn)業(yè)網(wǎng)微信二維碼logo

　　榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報(bào)生成中...

分享到微博分享到微信一鍵復(fù)制

標(biāo)題鏈接已成功復(fù)制

當(dāng)Deep Seek學(xué)會(huì)撒謊后，人類真的束手無策嗎

最新新聞

熱門新聞

新動(dòng)態(tài)

關(guān)注度

最話題

當(dāng)Deep Seek學(xué)會(huì)撒謊后，人類真的束手無策嗎

相關(guān)閱讀

最新新聞

熱門新聞

新動(dòng)態(tài)

關(guān)注度

最話題

當(dāng)Deep Seek學(xué)會(huì)撒謊后，人類真的束手無策嗎