2024年首份大模型報告來了!近日發(fā)布的《大語言模型能力測評報告2024》通過3000多道測試題,對國內外主流的10個大語言模型進行了評測,結果顯示大模型行業(yè)也存在“馬太效應”:一直處于領先地位的文心一言和ChatGPT繼續(xù)領跑中美大模型,且優(yōu)勢愈發(fā)明顯,進一步拉開了與其他大模型的差距。
報告顯示,GPT-4以83.32%的綜合得分率位居第一,百度文心一言緊隨其后。文心一言82.9%的得分率與 ChatGPT 得分非常接近,僅僅相差 0.42%。大模型狂奔一年之后,國內大模型產(chǎn)品格局已經(jīng)初步形成,頭部企業(yè)呈現(xiàn)了領先態(tài)勢。
InfoQ《大語言模型能力測評報告2024》:頭部企業(yè)呈現(xiàn)領先態(tài)勢,文心一言得分率接近 ChatGPT
2023 年下半年,國內的大型模型已經(jīng)進入了一個顯著的成長階段。不僅模型的數(shù)量呈現(xiàn)出爆炸式的增長趨勢,而且模型的質量也在持續(xù)提升。
報告指出,在眾多國產(chǎn)大模型中,文心一言的綜合表現(xiàn)突出,不僅在中文語義理解、邏輯推理、代碼編寫、知識問答等基礎能力上領先,更在多模態(tài)處理等方面樹立了國產(chǎn)大語言模型的新標桿。具體來看,在編程能力、邏輯能力、上下文能力、翻譯能力、文學寫作能力等9項評測維度中,文心一言拿下了其中的6項第一,在所有評測模型中處于絕對領先。
截至2023年12月31日,已有兩批超過20個大模型獲得相關備案批準,面向公眾開放。越來越多的國產(chǎn)大模型正進入用戶的視野和認知中。
最新統(tǒng)計數(shù)據(jù)顯示,在目前的市場上,GPT 系列大模型和百度文心大模型已經(jīng)穩(wěn)居第一梯隊,受到了廣泛的關注和應用。近半數(shù)的受訪開發(fā)者表示,他們了解或使用過這兩款模型,充分證明兩者在行業(yè)內的領先地位和影響力。
公開資料也顯示,百度文心一言用戶規(guī)模已突破1億,自2023年8月31日率先獲準開放對公眾提供服務以來,文心一言的用戶提問量一路上揚,越來越多的用戶在信任和使用文心一言。
開發(fā)者調研:開發(fā)者認知心智梯隊形成,GPT系列大模型和百度文心大模型穩(wěn)居第一梯隊
報告認為,未來大模型產(chǎn)品有望誕生新的超級應用,企業(yè)級需求落地將成為2024年重要的行業(yè)⻛向。無論個人用戶市場,還是企業(yè)級市場,大模型產(chǎn)品的落地都需要強大的基礎大模型,將為AI原生應用的爆發(fā)提供驅動。百度文心大模型4.0、GPT-4等領先的大模型或將成為越來越多用戶和企業(yè)的首選,進行AI原生應用的開發(fā)和場景落地。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...