全球著名開源平臺(tái)Hugging Face聯(lián)合創(chuàng)辦人Clem透露,阿里巴巴最新開源的Qwen2-72B指令微調(diào)版本,在開源模型排行榜上榮登榜首。
綜合媒體27日報(bào)導(dǎo),Clem表示,為打造一個(gè)公正且準(zhǔn)確的開源大模型排名,他與團(tuán)隊(duì)利用300塊英偉達(dá)H100高性能硬件,對全球100多個(gè)主流開源大模型,包括Qwen2、Llama-3、Mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等嚴(yán)格的基準(zhǔn)測試集上進(jìn)行了全面深入的評估。
對于重新評估的原因,Clem表示,許多開發(fā)者過于追求排行榜的名次,導(dǎo)致在模型訓(xùn)練過程中過度依賴評估集數(shù)據(jù),過去的評估標(biāo)準(zhǔn)對于模型而言也顯得過于簡單。因此,本次評估提高難度標(biāo)準(zhǔn),以檢驗(yàn)這些模型在更難挑戰(zhàn)下的真實(shí)表現(xiàn)。
評估結(jié)果,阿里巴巴開源的Qwen2-72B模型脫穎而出,成新行業(yè)領(lǐng)軍者。排行榜顯示,Meta開源的Llama-3-70B指令微調(diào)版本排名第二,阿里巴巴的Qwen2-72B基礎(chǔ)版本排名第三,Mistralai的Mixtral-8x22B指令微調(diào)版本排名第四,微軟最新開源的小參數(shù)模型Phi-3-Medium-4K 14B排名第五。
零一萬物最新開源的Yi-1.5-34B-Chat版本則排在第六。此外,大模型平臺(tái)Cohere開源帶RAG功能的Command R+ 104B排名第七,曾經(jīng)排名第一的英偉達(dá)開源的Smaug-72B-v0.1,在新的排行榜中位列第八名。第九名和第十名,則是阿里巴巴之前開源的Qwen1.5基礎(chǔ)和Chat版本。