上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強?
大模型數(shù)學(xué)能力哪家強?
最近,上海AI lab構(gòu)建了一個全面的多語言數(shù)學(xué)基準(zhǔn)——MathBench。與現(xiàn)有的基準(zhǔn)不同的是,MathBench涵蓋從小學(xué)、初中、高中、大學(xué)不同難度,從基礎(chǔ)算術(shù)題到高階微積分、統(tǒng)計學(xué)、概率論等豐富類別的數(shù)學(xué)題目,跨度大,難度設(shè)置呈階梯狀,可以多維度評估模型的數(shù)學(xué)能力。
本文測試了20 個開源或閉源不同規(guī)模的大模型,包括新秀GPT-4o、常勝將軍GPT-4,還有開源模型里的扛把子通義千問和llama-3。
一起來看看各家大模型的數(shù)學(xué)真實水平到底如何吧~
3.5研究測試:
https://hujiaoai.cn
4研究測試:
https://askmanyai.cn
Claude-3研究測試:
https://hiclaude3.com
論文標(biāo)題:
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark
論文鏈接:
https://arxiv.org/pdf/2405.12209
Github連接:
https://github.com/Open-compass/MathBench
方法
1. 預(yù)定義知識框架
在MathBench中,作者首先將數(shù)學(xué)內(nèi)容分為四個主要的教育階段和一個基礎(chǔ)算術(shù)階段。四個階段對應(yīng)于基礎(chǔ)教育階段:小學(xué)、初中、高中和大學(xué)。“算術(shù)”階段評估四種基本數(shù)學(xué)運算的能力:加、減、乘、除。每個階段進一步細(xì)分為學(xué)科領(lǐng)域(如代數(shù)、幾何、三角學(xué)、微積分、統(tǒng)計學(xué)、概率論等)和具體主題(如代數(shù)中的線性方程、二次方程、多項式和函數(shù)),如下圖所示:
這種分類確保了廣泛數(shù)學(xué)問題的覆蓋,使數(shù)據(jù)集能夠深入揭示模型在各數(shù)學(xué)領(lǐng)域的理解和熟練程度。每個問題都帶有詳細(xì)標(biāo)簽,包括所屬階段、學(xué)科領(lǐng)域和主題,便于分析模型性能并識別其數(shù)學(xué)理解上的優(yōu)勢與不足。算術(shù)階段的強調(diào)也凸顯了基礎(chǔ)運算在數(shù)學(xué)學(xué)習(xí)中的核心地位。
2. 數(shù)據(jù)收集與統(tǒng)計
在預(yù)定義的知識框架下,作者主要收集兩類問題:一是理論知識問題,旨在檢驗?zāi)P蛯竟?、理論及其推論的理解;二是實際應(yīng)用問題,考察將理論知識應(yīng)用于實踐的能力。
問題格式定義:由于在開放性問題上難以評估模型的的表現(xiàn),作者將可能產(chǎn)生復(fù)雜答案的理論知識和實踐應(yīng)用問題重新設(shè)計為四選一的選擇題形式,確保答案的唯一性和干擾項的高混淆度。
對于理論知識問題,從數(shù)學(xué)教科書和互聯(lián)網(wǎng)中按主題搜集相關(guān)定義和推論,并轉(zhuǎn)化為高質(zhì)量的多選題。在選擇實踐應(yīng)用問題時,遵循以下標(biāo)準(zhǔn):匹配教育階段、全面覆蓋知識分類體系、問題表述清晰,主要關(guān)注如中考、高考、AMC和SAT等教育考試或競賽的題目,并引入開源問題以豐富多樣性。MathBench問題的來源在下表中列出。
通過使用GPT-4半自動化過濾過程,最終MathBench共包含3709個問題,涵蓋五個階段和三個知識層級的中英文內(nèi)容。數(shù)據(jù)集分為MathBench-T(含2,209個理論問題)和MathBench-A(含1,500個實踐應(yīng)用問題)兩部分。
實驗與分析
本文主要使用CircularEval (CE) 和 perplexity (PPL) 評估Chat模型和Base模型。CE通過系統(tǒng)性地評估包含N個選項的多選問題,每次改變選項順序來進行評估。為確保評估一致性,統(tǒng)一設(shè)置最大輸出長度為2048個Token,并采用貪心解碼策略對所有LLMs進行評估。評估框架采用OpenCompass。評估模型涵蓋了超20中開源與閉源模型,還有幾個專門針對數(shù)學(xué)能力進行微調(diào)后的數(shù)學(xué)LLMs。
chat模型評估效果
下表展示了實驗結(jié)果,分為面向應(yīng)用的部分(MathBench-A), 以及理論構(gòu)成的部分(MathBench-T)。
在MathBench-A中,GPT-4o(GPT-4o-2024-05-13)總體表現(xiàn)最佳,尤其在初中、高中和大學(xué)階段數(shù)學(xué)試題測試中顯著領(lǐng)先。開源模型中,Qwen1.5-110B-Chat表現(xiàn)最優(yōu),而DeepSeek-Math-7B-RL雖小但數(shù)學(xué)能力也很突出。
在開源的chat模型中,不同參數(shù)規(guī)模的模型表現(xiàn)出不同的能力:
約7B模型:InternLM2-Chat-7B和Llama-3-8B-Instruct在7億規(guī)模模型中脫穎而出。Llama-3-8B-Instruct與ChatGLM3-6B相比,性能差距隨難度遞增,分別高出43.95%-723.53%。這表明高階數(shù)學(xué)問題對模型的理解和推理能力提出更高要求,小型LLMs在解決復(fù)雜問題上仍面臨挑戰(zhàn)。
約20B模型:InternLM2-Chat-20B表現(xiàn)出色,其次是Qwen-14B-Chat。盡管Yi-34B-Chat參數(shù)量更大,但其性能卻不及其他20B模型。這些模型在解決高中和大學(xué)復(fù)雜數(shù)學(xué)問題時也面臨挑戰(zhàn)。
約70B模型: Qwen1.5-110B-Chat在解決數(shù)學(xué)應(yīng)用問題上尤為出色,不僅超越了其他開源聊天模型,還超越了多個專用數(shù)學(xué)模型,性能接近閉源模型GPT-4-0125-Preview。
專注數(shù)學(xué)任務(wù)模型: DeepSeek-Math-7B-RL在處理小學(xué)至大學(xué)數(shù)學(xué)應(yīng)用問題時均表現(xiàn)優(yōu)異,不僅超越了同類模型,還以僅十分之一的模型大小,在參數(shù)量大10倍的DeepSeek-67B-Chat上取得了24.8%的性能優(yōu)勢,這彰顯了其在數(shù)學(xué)問題求解方面的高效性和針對性。
在MathBench-T中,GPT-4o同樣在各階段均表現(xiàn)出色,平均理論得分87.0,位居所有模型之首。結(jié)合其MathBench-A的應(yīng)用得分70.9,GPT-4o在理論與應(yīng)用層面均展現(xiàn)卓越性能。
Qwen系列模型緊隨其后,其中Qwen1.5-110B-Chat在初級階段領(lǐng)先,并在“Primary”階段以93.4的CE分?jǐn)?shù)居首。但在高級教育階段,GPT-4o優(yōu)勢明顯,如大學(xué)級理論知識階段高出Deepseek-Math-7B-RL達(dá)16.9分。
InternLM2-Chat-7B在70億參數(shù)模型中表現(xiàn)穩(wěn)健,其理論階段表現(xiàn)優(yōu)于Qwen-7B-Chat達(dá)31.3%。Deepseek-Math-7B-RL在數(shù)學(xué)領(lǐng)域持續(xù)領(lǐng)先,成績超越Llama-3-70B-Instruct。
MathBench測試顯示,模型在理論與應(yīng)用能力上排名相近,理論強的模型應(yīng)用亦佳,反之亦然。
Base模型評估結(jié)果
下表展示了Base模型的結(jié)果,可以看出Base模型與其Chat模型性能一致。
在7B參數(shù)范圍里,InternLM2-7B的表現(xiàn)是最好的。Qwen-14B和Qwen-72B在MathBench基準(zhǔn)測試中,各自在其所屬的參數(shù)類別中表現(xiàn)得非常出色。
在處理數(shù)學(xué)任務(wù)時,Deepseek-Math-7B-Base與Chat模型的表現(xiàn)結(jié)果非常接近,這說明基礎(chǔ)模型(Base模型)和聊天模型(Chat模型)在性能上有很高的相似性。
ChatGLM3-6B-Base在7B類別中排在第二位,它超過了Qwen-7B和Mistral-7B-v0.1。但是,它的聊天版本ChatGLM3-6B在MathBench-A測試中,性能比Qwen-7B-Chat差95.2%,在MathBench-T測試中,差距更是高達(dá)104.7%。這種性能上的差異很可能是因為在后續(xù)優(yōu)化階段,它們采用了不同的調(diào)整方法。
細(xì)粒度分析
模型在應(yīng)用問題上的得分隨著問題難度的提升而顯著變化。
如下圖所示,大多數(shù)模型在算術(shù)和基礎(chǔ)數(shù)學(xué)問題上的表現(xiàn)很出色。然而,當(dāng)問題難度達(dá)到中等或更高時,它們的性能會大幅下降。這說明當(dāng)前模型在解決可以通過直接計算、模式識別或記憶基本概念的任務(wù)時表現(xiàn)良好,但在面對更復(fù)雜的數(shù)學(xué)問題時則顯得力不從心。
模型的理論理解與應(yīng)用能力之間存在差距嗎?
模型的理論理解與應(yīng)用能力之間確實存在差距,尤其是在處理不同階段的數(shù)學(xué)問題時。如下圖所示,LLM在不同階段的理論和應(yīng)用得分趨勢揭示了這一點。
在基礎(chǔ)階段,大多數(shù)LLM的理論和應(yīng)用得分高度相關(guān),顯示出它們在解決簡單任務(wù)時,理論理解和應(yīng)用能力能夠較好地結(jié)合。然而,也有少數(shù)例外。例如,Qwen-72B-Chat在理論能力上表現(xiàn)出色,而Claude-3-Opus在應(yīng)用能力上更勝一籌。
隨著問題難度的增加,即進入中等及以上階段,模型需要更強的計算和推理能力來取得良好的應(yīng)用得分。在這一階段,理論與應(yīng)用之間的差距開始顯現(xiàn)。GPT-4在所有階段的應(yīng)用表現(xiàn)都領(lǐng)先,尤其是在更高級階段,這種差距更加明顯。
因此,雖然理論是解決大多數(shù)應(yīng)用問題的基礎(chǔ),但在面對更高難度的任務(wù)時,模型的理論理解與應(yīng)用能力之間會存在一定的差距。為了提高模型的整體性能,我們需要在加強模型理論理解的同時,注重提升其在實際應(yīng)用中的表現(xiàn)。
模型在不同子主題下表現(xiàn)如何?
如下圖所示,模型在涉及基礎(chǔ)數(shù)學(xué)技能的主題上表現(xiàn)優(yōu)異,如“單位轉(zhuǎn)換”、“四則運算”和“方程的基本概念”,這些主題的平均得分較高。
然而,面對需要抽象推理和復(fù)雜計算的主題,如“雙重積分”、“數(shù)學(xué)邏輯”和“集合論”,模型表現(xiàn)欠佳,平均得分較低。
這提示我們,針對這些較難的數(shù)學(xué)問題,需要對模型進行專門的分析和優(yōu)化,找出推理能力不足或基礎(chǔ)理論概念掌握不穩(wěn)定的根源,以提高模型的整體性能。
在雙語場景下,哪種模型表現(xiàn)更佳?
下圖展示了各種LLM在MathBench上的雙語能力,強調(diào)了處理需要理解不同語言和數(shù)學(xué)概念細(xì)微差別數(shù)學(xué)任務(wù)時語言靈活性的重要性。
在所有LLM中,GPT-4以67.1的最高雙語分?jǐn)?shù)領(lǐng)先,它在中文(65.2)和英語(69.0)方面的表現(xiàn)均衡,這顯示出其卓越的雙語處理能力。其他模型如Qwen-72B-Chat和DeepSeek Math-7B-RL也展現(xiàn)出了顯著的雙語能力。但值得注意的是,大多數(shù)評估的LLM在中文和英語之間的性能差距相比GPT-4要大得多。
錯誤分析
本文還對每個階段隨機抽取的80個理論問題和100個應(yīng)用問題進行了全面的錯誤分析,如下圖所示:
錯誤主要由以下問題引起:
- 知識匱乏:在理論性問題中,高達(dá)78%的模型錯誤源于對數(shù)學(xué)概念的誤解,這一比例在所有錯誤中占據(jù)49.5%。這表明大多數(shù)模型在掌握基礎(chǔ)知識和術(shù)語上還存在明顯的不足。
- 推理能力欠缺:模型在邏輯推理方面存在明顯短板,33.4%的錯誤源于邏輯上雖連貫但存在缺陷的推理過程。此外,還有9.6%的錯誤是因為模型偏離了用戶的查詢意圖,這反映出模型在理解用戶意圖和給出恰當(dāng)回答方面的局限性。隨著任務(wù)難度的增加,這類與推理相關(guān)的錯誤也會增多。
- 長度限制:盡管在統(tǒng)計上不是主要的錯誤類型(僅占4.0%),但模型在處理復(fù)雜任務(wù)時受限于輸出長度,這暴露了模型在有限空間內(nèi)處理復(fù)雜指令和任務(wù)的挑戰(zhàn)。
- 其他不足:有時,模型會給出缺乏明確推理過程的回答,這使得審查變得困難。然而,那些具備更強推理能力的模型在面對選擇時,能夠展現(xiàn)出批判性思維,提供超出預(yù)設(shè)選項的解答。
結(jié)語
MathBench根據(jù)問題難度和階段對數(shù)學(xué)題進行分類,全面評估了LLMs的數(shù)學(xué)能力。它覆蓋了教育各階段的廣泛學(xué)科和主題,為數(shù)學(xué)學(xué)習(xí)和評估領(lǐng)域的研究者及教育工作者提供了寶貴的資源。