藍鯨新聞12月20日訊(記者 武靜靜)要衡量一個大模型能力是否夠強,評測是最直接的維度。大模型評測就是為大模型的一場“考試”,從不同大模型的表現(xiàn)中,不僅可以衡量現(xiàn)有技術(shù)水平,還能幫助識別大模型存在的問題,促進模型開發(fā)。
一個理想的假設(shè)是,如果一套大模型評測體系足夠科學,就可以一目了然看到國內(nèi)外大模型能力彼此的差距。但現(xiàn)實要比理想復雜的多,如果把大模型測評看作一場考試,它要面對的大模型考生掌握了多種語言,跨領(lǐng)域知識豐富,且一旦讓他習得這次考試的考題,它可以依靠刷分獲得高成績。
幾十種大模型評測榜單眼花繚亂
據(jù)藍鯨新聞根據(jù)公開資料統(tǒng)計,全球針對大模型的評測榜單不下于50個,不同機構(gòu)打造的大模型評測體系也不一樣。
經(jīng)常有人看到戲劇性的一幕,某模型在某個榜單上排名前三,但在一些榜單上卻排在后面。這也引發(fā)了很多人的質(zhì)疑,有人稱,如果做不到公平可信,評測的價值就不大。
在這種復雜環(huán)境下,如何把大模型評測體系做的更科學?更有公信力?為此,藍鯨新聞與國內(nèi)最早探索大模型評測體系的機構(gòu),即智源研究院相關(guān)人士做了深入交流。
2023年,智源研究院推出了FlagEval(天秤)大語言模型評測體系,該評測體系覆蓋語言模型、多模態(tài)模型、語音語言模型等多種模態(tài),并針對不同模態(tài)設(shè)計相應(yīng)的評測指標和方法。12月19日,智源再次發(fā)布了迭代后新版本的FlagEval,目前FlagEval已覆蓋全球800多個開閉源模型,有超200萬條評測題目。
為了設(shè)置統(tǒng)一的起跑線,開源模型采用模型發(fā)布方推薦的推理代碼和運行環(huán)境。智源研究院智能評測組負責人楊熙告訴藍鯨新聞,評測中,所有閉源大模型題目都是智源通過調(diào)用公開的API,以普通用戶的角度來使用大模型,針對每個模型出的題目和訪問方式都是一樣的。“它可能不知道在評測,也不知道是測試數(shù)據(jù)。”
我們經(jīng)常能看到大模型公司都在通過“曬自己在評測榜單中名列前茅”來顯示自己的能力地位。而業(yè)內(nèi),也不乏有些公司一味“刷分”來證明自己的模型能力。
針對一些大模型榜單的刷分動作花樣百出,有公司反復提交不同版本的模型直到得到滿意的成績?yōu)橹�,也有公司提前獲取評測數(shù)據(jù)集并在訓練過程中使用這些數(shù)據(jù),從而讓模型對測試內(nèi)容有所準備,導致評測結(jié)果不能真實反映模型的能力。更有甚者會針對特定評測數(shù)據(jù)集進行過度擬合,使得模型在這個特定的數(shù)據(jù)集上表現(xiàn)得非常好,但在實際應(yīng)用中卻無法達到同樣的性能。
此外,由于提示詞等各種客觀因素,大模型評測確實面臨很多現(xiàn)實的挑戰(zhàn),為了確保評測結(jié)果的公正性和可靠性,智源也采取了一系列措施來避免大模型在評測中刷分。
楊熙向藍鯨新聞舉了一個例子,在多模態(tài)和語言模型的評測中,智源通過引入更難的考題來拉開模型之間能力的差距。更新后的考題使得模型得分中位數(shù)從之前的51分降至47分,有效避免了因題目過于簡單而導致的分數(shù)虛高現(xiàn)象。
楊熙介紹,智源研究院使用的評測數(shù)據(jù)集不僅包括來自開源社區(qū)的公開數(shù)據(jù)集,也涵蓋了其自身構(gòu)建的自建數(shù)據(jù)集,確保模型不會僅僅針對特定數(shù)據(jù)集進行優(yōu)化。
讓大模型互相打辯論來一較高下
一個更新穎的方式讓大模型互相打辯論,一爭高下,來讓人直觀的感受到模型能力的差距。
和傳統(tǒng)的評測方法相比,辯論賽要求模型理解辯題、構(gòu)建論點、反駁對方觀點,可以更全面地考察模型的思辨能力、邏輯推理能力、語言表達能力等綜合素質(zhì),這有助于促進模型在復雜任務(wù)上的能力提升,例如批判性思維、策略制定、說服力等。此前在2018年,OpenAI就提出了一種人工智能安全技術(shù),訓練智能體對話題進行辯論,然后由人判斷輸贏。
智源在現(xiàn)場演示了一場大模型之前的實時辯論賽。其中一場辯題是:“功夫熊貓和孫悟空誰更適合做隊友?”
兩個大模型展開了三輪對話,不僅能反駁對方觀點,還能引經(jīng)據(jù)典,談話張力十足。也是在這些互動中,普通人更直觀的感受到了不同模型的能力差異。
更多創(chuàng)新的大模型評測體系正在隨著技術(shù)而不斷演進。“榜單排名不應(yīng)作為評價模型的唯一標準。”智源研究院副院長兼總工程師林詠華告訴藍鯨新聞。
林詠華認為,用戶在選擇模型時,應(yīng)根據(jù)自身需求和應(yīng)用場景,綜合考慮模型的各項指標,而非僅僅關(guān)注排名。此外,她也提到,評測需要更加關(guān)注模型的實際應(yīng)用能力。單純的理論指標并不能完全反映模型在實際應(yīng)用中的表現(xiàn),評測應(yīng)更加貼近實際使用場景,例如響應(yīng)速度、用戶體驗等。
“大模型評測是一個復雜的系統(tǒng)工程,需要行業(yè)共同努力,不斷探索新的評測方法,構(gòu)建更加高質(zhì)量的評測數(shù)據(jù)集,并加強合作,推動統(tǒng)一評測標準的建立,才能更好地促進大模型技術(shù)的健康發(fā)展。”林詠華總結(jié)道。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...