亚洲国产成人精品无码区6080,国产片AV不卡在线播放国产
首頁 > 資訊 > 財(cái)報(bào)

LMSYS盲測競技場成全球大模型評(píng)測金標(biāo)準(zhǔn),“黑馬”Yi-Large 登頂金字塔尖

2024/05/22 09:47      DoNews 楊亮


  上周,一個(gè)名為“im-also-a-good-gpt2-chatbot”的神秘模型突然現(xiàn)身大模型競技場Chatbot Arena,排名直接超過GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b等各家國際大廠的當(dāng)家基座模型。

  隨后OpenAI揭開“im-also-a-good-gpt2-chatbot”神秘面紗——正是GPT-4o的測試版本,OpenAI CEO Sam Altman也在Gpt-4o發(fā)布后親自轉(zhuǎn)帖引用 LMSYS arena 盲測擂臺(tái)的測試結(jié)果。

  由開放研究組織 LMSYS Org (Large Model Systems Organization)發(fā)布的Chatbot Arena已經(jīng)成為OpenAI、Anthropic、Google、Meta等國際大廠“龍爭虎斗”的當(dāng)紅擂臺(tái),以最開放與科學(xué)的評(píng)測方法,在大模型進(jìn)入第二年之際開放群眾投票。

  時(shí)隔一周,在最新更新的排名中,類“im-also-a-good-gpt2-chatbot”的黑馬故事再次上演,這次排名飛速上漲的模型正是由中國大模型公司零一萬物提交的“Yi-Large” 千億參數(shù)閉源大模型。

  在 LMSYS 盲測競技場最新排名中,零一萬物的最新千億參數(shù)模型 Yi-Large 總榜排名世界模型第7,中國大模型中第一,已經(jīng)超過Llama-3-70B、Claude 3 Sonnet;其中文分榜更是與GPT4o 并列世界第一。

  零一萬物也由此成為了總榜上唯一一個(gè)自家模型進(jìn)入排名前十的中國大模型企業(yè)。在總榜上,GPT系列占了前10的4個(gè),以機(jī)構(gòu)排序,零一萬物 01.AI 僅次于 OpenAI, Google, Anthropic之后,以開放金標(biāo)準(zhǔn)正式進(jìn)擊國際頂級(jí)大模型企業(yè)陣營。

  美國時(shí)間2024年5月20日剛刷新的 LMSYS Chatboat Arena 盲測結(jié)果,來自至今積累超過 1170萬的全球用戶真實(shí)投票數(shù):

  值得一提的是,為了提高 Chatbot Arena 查詢的整體質(zhì)量,LMSYS還實(shí)施了重復(fù)數(shù)據(jù)刪除機(jī)制,并出具了去除冗余查詢后的榜單。這個(gè)新機(jī)制旨在消除過度冗余的用戶提示,如過度重復(fù)的“你好”。這類冗余提示可能會(huì)影響排行榜的準(zhǔn)確性。LMSYS公開表示,去除冗余查詢后的榜單將在后續(xù)成為默認(rèn)榜單。

  在去除冗余查詢后的總榜中, Yi-Large的Elo得分更進(jìn)一步,與Claude 3 Opus、GPT-4-0125-preview并列第四。

  LMSYS 中文榜:GPT-4o 和 Yi-Large 并列第一

  值得國人關(guān)注的是,國內(nèi)大模型廠商中,智譜GLM4、阿里Qwen Max、Qwen 1.5、零一萬物Yi-Large、Yi-34B-chat 此次都有參與盲測,在總榜之外,LMSYS 的語言類別上新增了英語、中文、法文三種語言評(píng)測,開始注重全球大模型的多樣性。Yi-Large的中文語言分榜上拔得頭籌,與 OpenAI 官宣才一周的地表最強(qiáng) GPT4o 并列第一,Qwen-Max 和 GLM-4 在中文榜上也都表現(xiàn)不凡。

  “最燒腦” 公開評(píng)測:Yi-Large 位居全球第二

  在分類別的排行榜中,Yi-Large同樣表現(xiàn)亮眼。編程能力、長提問及最新推出的 “艱難提示詞” 的三個(gè)評(píng)測是LMSYS所給出的針對(duì)性榜單,以專業(yè)性與高難度著稱,可稱作大模型“最燒腦”的公開盲測。

  在編程能力(Coding)排行榜上,Yi-Large 的Elo分?jǐn)?shù)超過Anthropic 當(dāng)家旗艦?zāi)P?Claude 3 Opus,僅低于GPT-4o,與GPT-4-Turbo、GPT-4并列第二。

  長提問(Longer Query)榜單上,Yi-Large同樣位列全球第二,與GPT-4-Turbo、GPT-4、Claude 3 Opus并列。

  艱難提示詞(Hard Prompts)則是LMSYS為了響應(yīng)社區(qū)要求,于此次新增的排行榜類別。這一類別包含來自 Arena 的用戶提交的提示,這些提示則經(jīng)過專門設(shè)計(jì),更加復(fù)雜、要求更高且更加嚴(yán)格。LMSYS認(rèn)為,這類提示能夠測試最新語言模型面臨挑戰(zhàn)性任務(wù)時(shí)的性能。在這一榜單上,Yi-Large 處理艱難提示的能力也得到印證,與GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。

  LMSYS Chatbot Arena:后benchmark時(shí)代的風(fēng)向標(biāo)

  如何為大模型給出客觀公正的評(píng)測一直是業(yè)內(nèi)廣泛關(guān)注的話題。為了在固定題庫中取得一份亮眼的評(píng)測分?jǐn)?shù),業(yè)內(nèi)出現(xiàn)了各式各樣的“刷榜”方法:將各種各樣的評(píng)測基準(zhǔn)訓(xùn)練集直接混入模型訓(xùn)練集中、用未對(duì)齊的模型跟已經(jīng)對(duì)齊的模型做對(duì)比等等,對(duì)嘗試了解大模型真實(shí)能力的人,的確呈現(xiàn)“眾說紛紜”的現(xiàn)場,更讓大模型的投資人摸不著北。

  在經(jīng)過2023年一系列錯(cuò)綜復(fù)雜、亂象叢生的大模型評(píng)測浪潮之后,業(yè)界對(duì)于評(píng)測集的專業(yè)性和客觀性給予了更高的重視。而LMSYS Org 發(fā)布的Chatbot Arena憑借其新穎的“競技場”形式、測試團(tuán)隊(duì)的嚴(yán)謹(jǐn)性,成為目前全球業(yè)界公認(rèn)的基準(zhǔn)標(biāo)桿,連 OpenAI 在 GPT-4o 正式發(fā)布前,都在 LMSYS 上匿名預(yù)發(fā)布和預(yù)測試。

  在海外大廠高管中,不只Sam Altman,Google DeepMind首席科學(xué)家Jeff Dean也曾引用LMSYS Chatbot Arena的排名數(shù)據(jù),來佐證Bard產(chǎn)品的性能。

  OpenAI創(chuàng)始團(tuán)隊(duì)成員 Andrej Karpathy甚至公開表示,Chatbot Arena is “awesome”。

  自身的旗艦?zāi)P桶l(fā)布后第一時(shí)間提交給LMSYS,這一行為本身就展現(xiàn)了海外頭部大廠對(duì)于Chatbot Arena的極大尊重。這份尊重既來自于LMSYS作為研究組織的權(quán)威背書,也來自于其新穎的排名機(jī)制。

  公開資料顯示,LMSYS Org 是一個(gè)開放的研究組織,由加州大學(xué)伯克利分校的學(xué)生和教師、加州大學(xué)圣地亞哥分校、卡耐基梅隆大學(xué)合作創(chuàng)立。雖然主要人員出自高校,但LMSYS的研究項(xiàng)目卻十分貼近產(chǎn)業(yè),他們不僅自己開發(fā)大語言模型,還向業(yè)內(nèi)輸出多種數(shù)據(jù)集(其推出的MT-Bench已是指令遵循方向的權(quán)威評(píng)測集)、評(píng)估工具,此外還開發(fā)分布式系統(tǒng)以加速大模型訓(xùn)練和推理,提供線上 live 大模型打擂臺(tái)測試所需的算力。

  在形式上,Chatbot Arena借鑒了搜索引擎時(shí)代的橫向?qū)Ρ仍u(píng)測思路。它首先將所有上傳評(píng)測的“參賽”模型隨機(jī)兩兩配對(duì),以匿名模型的形式呈現(xiàn)在用戶面前。隨后號(hào)召真實(shí)用戶輸入自己的提示詞,在不知道模型型號(hào)名稱的前提下,由真實(shí)用戶對(duì)兩個(gè)模型產(chǎn)品的作答給出評(píng)價(jià),在盲測平臺(tái) https://arena.lmsys.org/ 上,大模型們兩兩相比,用戶自主輸入對(duì)大模型的提問,模型A、模型B 兩側(cè)分別生成兩PK模型的真實(shí)結(jié)果,用戶在結(jié)果下方做出投票四選一:A模型較佳、B模型較佳,兩者平手,或是兩者都不好。提交后,可進(jìn)行下一輪PK。

  通過眾籌真實(shí)用戶來進(jìn)行線上實(shí)時(shí)盲測和匿名投票,Chatbot Arena一方面減少偏見的影響,另一方面也最大概率避免基于測試集進(jìn)行刷榜的可能性,以此增加最終成績的客觀性。在經(jīng)過清洗和匿名化處理后,Chatbot Arena還會(huì)公開所有用戶投票數(shù)據(jù)。得益于“真實(shí)用戶盲測投票”這一機(jī)制,Chatbot Arena被稱為大模型業(yè)內(nèi)最有用戶體感的奧林匹克。

  在收集真實(shí)用戶投票數(shù)據(jù)之后,LMSYS Chatbot Arena還使用Elo評(píng)分系統(tǒng)來量化模型的表現(xiàn),進(jìn)一步優(yōu)化評(píng)分機(jī)制,力求公平反應(yīng)參與者的實(shí)力。

  Elo評(píng)分系統(tǒng),是一項(xiàng)基于統(tǒng)計(jì)學(xué)原理的權(quán)威性評(píng)價(jià)體系,由匈牙利裔美國物理學(xué)家Arpad Elo博士創(chuàng)立,旨在量化和評(píng)估各類對(duì)弈活動(dòng)的競技水平。作為當(dāng)前國際公認(rèn)的競技水平評(píng)估標(biāo)準(zhǔn),Elo等級(jí)分制度在國際象棋、圍棋、足球、籃球、電子競技等運(yùn)動(dòng)中都發(fā)揮著至關(guān)重要的作用。

  更通俗地來講,在Elo評(píng)分系統(tǒng)中,每個(gè)參與者都會(huì)獲得基準(zhǔn)評(píng)分。每場比賽結(jié)束后,參與者的評(píng)分會(huì)基于比賽結(jié)果進(jìn)行調(diào)整。系統(tǒng)會(huì)根據(jù)參與者評(píng)分來計(jì)算其贏得比賽的概率,一旦低分選手擊敗高分選手,那么低分選手就會(huì)獲得較多的分?jǐn)?shù),反之則較少。通過引入Elo評(píng)分系統(tǒng),LMSYS Chatbot Arena在最大程度上保證了排名的客觀公正。

  Chatbot Arena的評(píng)測過程涵蓋了從用戶直接參與投票到盲測,再到大規(guī)模的投票和動(dòng)態(tài)更新的評(píng)分機(jī)制等多個(gè)方面,這些因素共同作用,確保了評(píng)測的客觀性、權(quán)威性和專業(yè)性。毫無疑問,這樣的評(píng)測方式能夠更準(zhǔn)確地反映出大模型在實(shí)際應(yīng)用中的表現(xiàn),為行業(yè)提供了一個(gè)可靠的參考標(biāo)準(zhǔn)。

  Yi-Large 以小搏大緊追國際第一陣營,登頂國內(nèi)大模型盲測

  此次Chatbot Arena共有44款模型參賽,既包含了頂尖開源模型Llama3-70B,也包含了各家大廠的閉源模型。

  以最新公布的Elo評(píng)分來看,GPT-4o以1287分高居榜首,GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 0pus、Yi-Large等模型則以1240左右的評(píng)分位居第二梯隊(duì);其后的Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet的成績則斷崖式下滑至1200分左右。

  值得一提的是,排名前6的模型分別歸屬于海外巨頭 OpenAI、Google、Anthropic,零一萬物位列全球第四機(jī)構(gòu),且GPT-4、Gemini 1.5 Pro等模型均為萬億級(jí)別超大參數(shù)規(guī)模的旗艦?zāi)P停渌P鸵捕荚诖髱浊|參數(shù)級(jí)別。Yi-Large “以小搏大” 以僅僅千億參數(shù)量級(jí)緊追其后, 5月13日一經(jīng)發(fā)布便沖上世界排名第七大模型,與海外大廠的旗艦?zāi)P吞幱谕惶蓐?duì)。在 LMSYS Chatbot Arena 截至5月21日的總榜上,阿里巴巴的 Qwen-Max 大模型 Elo分?jǐn)?shù)為1186,排名第12;智譜AI 的GLM-4 大模型 Elo分?jǐn)?shù)為 1175,排名第15。

  在當(dāng)前大模型步入商業(yè)應(yīng)用的浪潮中,模型的實(shí)際性能亟需通過具體應(yīng)用場景的嚴(yán)格考驗(yàn),以證明其真正的價(jià)值和潛力。過去那種僅要求表面光鮮的“作秀式”評(píng)測方式已不再具有實(shí)際意義。為了促進(jìn)整個(gè)大模型行業(yè)的健康發(fā)展,整個(gè)行業(yè)必須追求一種更為客觀、公正且權(quán)威的評(píng)估體系。

  在這樣的背景下,一個(gè)如Chatbot Arena這樣能夠提供真實(shí)用戶反饋、采用盲測機(jī)制以避免操縱結(jié)果、并且能夠持續(xù)更新評(píng)分體系的評(píng)測平臺(tái),顯得尤為重要。它不僅能夠?yàn)槟P吞峁┕脑u(píng)估,還能夠通過大規(guī)模的用戶參與,確保評(píng)測結(jié)果的真實(shí)性和權(quán)威性。

  無論是出于自身模型能力迭代的考慮,還是立足于長期口碑的視角,大模型廠商應(yīng)當(dāng)積極參與到像Chatbot Arena這樣的權(quán)威評(píng)測平臺(tái)中,通過實(shí)際的用戶反饋和專業(yè)的評(píng)測機(jī)制來證明其產(chǎn)品的競爭力。

  這不僅有助于提升廠商自身的品牌形象和市場地位,也有助于推動(dòng)整個(gè)行業(yè)的健康發(fā)展,促進(jìn)技術(shù)創(chuàng)新和產(chǎn)品優(yōu)化。相反,那些選擇作秀式的評(píng)測方式,忽視真實(shí)應(yīng)用效果的廠商,模型能力與市場需求之間的鴻溝會(huì)越發(fā)明顯,最終將難以在激烈的市場競爭中立足。

IT產(chǎn)業(yè)網(wǎng)微信二維碼logo

  榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報(bào)生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復(fù)制
標(biāo)題鏈接已成功復(fù)制

最新新聞

熱門新聞