Benchmark Leaderboard

GPQA

125 models with GPQA scores, ranked from highest to lowest.

Score Leaderboard

#	Model	Developer	Score
1	DeepSeek: DeepSeek V3.2 Speciale	deepseek	87.1
2	OpenAI: GPT-5 Codex	openai	86.0
3	OpenAI: GPT-5.2-Codex	openai	86.0
4	OpenAI: GPT-5.1-Codex	openai	86.0
5	OpenAI: GPT-5	openai	85.4
6	Google: Gemini 2.5 Pro	google	84.4
7	MoonshotAI: Kimi K2 Thinking	moonshotai	83.8
8	MiniMax: MiniMax M2.7	minimax	83.0
9	MiniMax: MiniMax M2.1	minimax	83.0
10	MiniMax: MiniMax M2.5	minimax	83.0
11	OpenAI: GPT-5 Mini	openai	82.8
12	OpenAI: o3	openai	82.7
13	Google: Gemini 2.5 Pro Preview 05-06	google	82.2
14	DeepSeek: R1	deepseek	81.3
15	OpenAI: GPT-5.1-Codex-Mini	openai	81.3
16	Google: Gemini 2.5 Flash	google	81.2
17	Baidu: ERNIE 4.5 300B A47B	baidu	81.1
18	xAI: Grok 3 Mini	x-ai	79.1
19	Qwen: Qwen3 235B A22B Thinking 2507	qwen	79.0
20	OpenAI: o4 Mini	openai	78.4
21	OpenAI: gpt-oss-120b	openai	78.2
22	MiniMax: MiniMax M2	minimax	77.7
23	Qwen: Qwen3 Max Thinking	qwen	77.6
24	OpenAI: o3 Mini High	openai	77.3
25	Qwen: Qwen3 VL 235B A22B Thinking	qwen	77.2
26	Anthropic: Claude 3.7 Sonnet (thinking)	anthropic	77.2
27	Qwen: Qwen3 VL 235B A22B Instruct	qwen	77.2
28	MoonshotAI: Kimi K2 0905	moonshotai	76.7
29	MoonshotAI: Kimi K2.6	moonshotai	76.6
30	MoonshotAI: Kimi K2.5	moonshotai	76.6
31	MoonshotAI: Kimi K2 0711	moonshotai	76.6
32	Kwaipilot: KAT-Coder-Pro V2	kwaipilot	76.4
33	Prime Intellect: INTELLECT-3	prime-intellect	76.1
34	Qwen: Qwen3 Next 80B A3B Instruct	qwen	75.9
35	Qwen: Qwen3 Next 80B A3B Thinking	qwen	75.9
36	NVIDIA: Nemotron 3 Nano 30B A3B (free)	nvidia	75.7
37	Qwen: Qwen3 235B A22B Instruct 2507	qwen	75.3
38	DeepSeek: DeepSeek V3.2	deepseek	75.1
39	DeepSeek: DeepSeek V3.1 Terminus	deepseek	75.1
40	NVIDIA: Llama 3.3 Nemotron Super 49B V1.5	nvidia	74.8
41	OpenAI: o3 Mini	openai	74.8
42	OpenAI: o1	openai	74.7
43	Z.ai: GLM 4.5 Air	z-ai	73.3
44	xAI: Grok Code Fast 1	x-ai	72.7
45	Nous: Hermes 3 405B Instruct	nousresearch	72.7
46	Qwen: Qwen3 30B A3B	qwen	72.6
47	Qwen: Qwen3 VL 30B A3B Thinking	qwen	72.0
48	Google: Gemini 2.5 Flash Lite Preview 09-2025	google	70.9
49	Qwen: Qwen3 30B A3B Thinking 2507	qwen	70.7
50	Qwen: Qwen3 30B A3B Instruct 2507	qwen	70.7
51	Nous: Hermes 3 70B Instruct	nousresearch	69.9
52	MiniMax: MiniMax M1	minimax	69.7
53	Z.ai: GLM 4.5V	z-ai	68.4
54	Mistral Large	mistralai	68.0
55	OpenAI: GPT-5 Nano	openai	67.6
56	Anthropic: Claude Haiku 4.5	anthropic	67.2
57	Qwen: Qwen3 VL 32B Instruct	qwen	66.8
58	OpenAI: GPT-4.1 Mini	openai	66.4
59	OpenAI: GPT-5.4 Mini	openai	66.4
60	Xiaomi: MiMo-V2-Flash	xiaomi	65.6
61	xAI: Grok 4 Fast	x-ai	63.7
62	xAI: Grok 4.1 Fast	x-ai	63.7
63	Qwen: Qwen3 VL 30B A3B Instruct	qwen	62.0
64	DeepSeek: R1 Distill Qwen 32B	deepseek	61.5
65	Qwen: Qwen3 235B A22B	qwen	61.3
66	OpenAI: gpt-oss-20b	openai	61.1
67	Anthropic: Claude Sonnet 4	anthropic	59.9
68	Anthropic: Claude Sonnet 4.5	anthropic	59.9
69	Anthropic: Claude Sonnet 4.6	anthropic	59.9
70	Qwen: QwQ 32B	qwen	59.3
71	AllenAI: Olmo 3 32B Think	allenai	59.1
72	Mistral: Mistral Medium 3.1	mistralai	58.8
73	Mistral: Mistral Medium 3	mistralai	58.8
74	Qwen: Qwen3 Max	qwen	58.7
75	Qwen: Qwen3 VL 8B Instruct	qwen	57.9
76	Qwen: Qwen3 VL 8B Thinking	qwen	57.9
77	Perplexity: Sonar Pro	perplexity	57.8
78	NVIDIA: Nemotron Nano 12B 2 VL (free)	nvidia	57.2
79	NVIDIA: Nemotron Nano 9B V2 (free)	nvidia	57.0
80	Z.ai: GLM 4.6V	z-ai	56.6
81	Upstage: Solar Pro 3	upstage	56.1
82	NVIDIA: Nemotron Nano 9B V2	nvidia	55.7
83	OpenAI: GPT-4o	openai	54.3
84	Google: Gemini 2.0 Flash Lite	google	53.5
85	Qwen: Qwen3 32B	qwen	53.5
86	Mistral: Devstral Small 1.1	mistralai	53.2
87	Reka Flash 3	rekaai	52.9
88	Cohere: Command A	cohere	52.7
89	OpenAI: GPT-4o (2024-05-13)	openai	52.6
90	Qwen: Qwen3 Coder 30B A3B Instruct	qwen	51.6
91	OpenAI: GPT-4.1 Nano	openai	51.2
92	Mistral: Pixtral Large 2411	mistralai	50.5
93	Meta: Llama 3.3 70B Instruct	meta-llama	49.8
94	Mistral: Devstral Medium	mistralai	49.2
95	Qwen: Qwen2.5 VL 72B Instruct	qwen	49.1
96	Anthropic: Claude Opus 4.7	anthropic	48.9
97	Anthropic: Claude Opus 4.6	anthropic	48.9
98	Anthropic: Claude Opus 4.5	anthropic	48.9
99	Anthropic: Claude Opus 4	anthropic	48.9
100	Google: Gemini 2.5 Flash Lite	google	47.4
101	Mistral Large 2407	mistralai	47.2
102	xAI: Grok 3 Beta	x-ai	47.1
103	Perplexity: Sonar	perplexity	47.1
104	Qwen: Qwen3 14B	qwen	47.0
105	NVIDIA: Llama 3.1 Nemotron 70B Instruct	nvidia	46.5
106	Qwen: Qwen3 8B	qwen	45.2
107	NVIDIA: Nemotron Nano 12B 2 VL	nvidia	43.9
108	OpenAI: GPT-5.4 Nano	openai	42.8
109	OpenAI: GPT-4o-mini	openai	42.6
110	Mistral: Saba	mistralai	42.4
111	Qwen2.5 Coder 32B Instruct	qwen	41.7
112	Qwen: Qwen-Turbo	qwen	41.0
113	DeepSeek: R1 Distill Llama 70B	deepseek	40.2
114	NVIDIA: Nemotron 3 Nano 30B A3B	nvidia	39.9
115	AI21: Jamba Large 1.7	ai21	39.0
116	Cohere: Command R+ (08-2024)	cohere	32.3
117	OpenAI: GPT-3.5 Turbo	openai	29.7
118	Google: Gemma 3n 4B	google	29.6
119	Mistral: Mixtral 8x7B Instruct	mistralai	29.2
120	Meta: Llama 3.1 8B Instruct	meta-llama	25.9
121	Meta: Llama 3 8B Instruct	meta-llama	25.9
122	Meta: Llama 3.2 3B Instruct	meta-llama	25.5
123	Meta: Llama 3.2 11B Vision Instruct	meta-llama	22.1
124	Meta: Llama 3.2 1B Instruct	meta-llama	19.6
125	Mistral: Mistral 7B Instruct v0.1	mistralai	17.7

Value Rankings

Best performance per dollar — score divided by avg price per million tokens.

#	Model	Score	Avg $/M	Value
1	Qwen: Qwen3 235B A22B Instruct 2507	75.3	$0.09	880.7
2	Meta: Llama 3.1 8B Instruct	25.9	$0.03	740.0
3	Meta: Llama 3 8B Instruct	25.9	$0.04	740.0
4	OpenAI: gpt-oss-20b	61.1	$0.09	718.8
5	OpenAI: gpt-oss-120b	78.2	$0.11	683.0
6	NVIDIA: Nemotron Nano 9B V2	55.7	$0.10	557.0
7	Qwen: Qwen-Turbo	41.0	$0.08	504.6
8	Qwen: Qwen3 30B A3B	72.6	$0.18	403.3
9	Qwen: Qwen3 30B A3B Instruct 2507	70.7	$0.20	362.6
10	Reka Flash 3	52.9	$0.15	352.7
11	Xiaomi: MiMo-V2-Flash	65.6	$0.19	345.3
12	Qwen: Qwen3 32B	53.5	$0.16	334.4
13	Google: Gemma 3n 4B	29.6	$0.09	328.9
14	NVIDIA: Nemotron 3 Nano 30B A3B	39.9	$0.12	319.2
15	Qwen: Qwen3 14B	47.0	$0.15	313.3
16	Qwen: Qwen3 Coder 30B A3B Instruct	51.6	$0.17	303.5
17	OpenAI: GPT-5 Nano	67.6	$0.22	300.4
18	NVIDIA: Llama 3.3 Nemotron Super 49B V1.5	74.8	$0.25	299.2
19	Qwen: Qwen3 30B A3B Thinking 2507	70.7	$0.24	294.6
20	Google: Gemini 2.0 Flash Lite	53.5	$0.19	285.3
21	Google: Gemini 2.5 Flash Lite Preview 09-2025	70.9	$0.25	283.6
22	Mistral: Devstral Small 1.1	53.2	$0.20	266.0
23	Qwen: Qwen3 VL 32B Instruct	66.8	$0.26	256.9
24	DeepSeek: DeepSeek V3.2	75.1	$0.32	238.4
25	Meta: Llama 3.3 70B Instruct	49.8	$0.21	237.1
26	Nous: Hermes 3 70B Instruct	69.9	$0.30	233.0
27	DeepSeek: R1 Distill Qwen 32B	61.5	$0.29	212.1
28	OpenAI: GPT-4.1 Nano	51.2	$0.25	204.8
29	Qwen: Qwen3 8B	45.2	$0.22	200.9
30	Qwen: Qwen3 VL 8B Instruct	57.9	$0.29	199.7
31	xAI: Grok 3 Mini	79.1	$0.40	197.7
32	Qwen: Qwen3 VL 30B A3B Instruct	62.0	$0.33	190.8
33	Google: Gemini 2.5 Flash Lite	47.4	$0.25	189.6
34	xAI: Grok 4 Fast	63.7	$0.35	182.0
35	xAI: Grok 4.1 Fast	63.7	$0.35	182.0
36	AllenAI: Olmo 3 32B Think	59.1	$0.33	181.8
37	Qwen: Qwen3 Next 80B A3B Thinking	75.9	$0.44	173.0
38	Meta: Llama 3.2 1B Instruct	19.6	$0.11	172.7
39	Qwen: QwQ 32B	59.3	$0.36	162.5
40	DeepSeek: DeepSeek V3.1 Terminus	75.1	$0.50	150.2
41	Upstage: Solar Pro 3	56.1	$0.38	149.6
42	Z.ai: GLM 4.5 Air	73.3	$0.49	149.6
43	Qwen: Qwen3 VL 235B A22B Instruct	77.2	$0.54	143.0
44	MiniMax: MiniMax M2.1	83.0	$0.62	133.9
45	Meta: Llama 3.2 3B Instruct	25.5	$0.20	130.4
46	MiniMax: MiniMax M2.5	83.0	$0.65	127.7
47	Qwen: Qwen3 Next 80B A3B Instruct	75.9	$0.60	127.6
48	MiniMax: MiniMax M2	77.7	$0.63	123.8
49	Mistral: Mistral 7B Instruct v0.1	17.7	$0.15	118.0
50	Baidu: ERNIE 4.5 300B A47B	81.1	$0.69	117.5
51	Prime Intellect: INTELLECT-3	76.1	$0.65	117.1
52	OpenAI: GPT-4o-mini	42.6	$0.38	113.6
53	MiniMax: MiniMax M2.7	83.0	$0.75	110.7
54	NVIDIA: Nemotron Nano 12B 2 VL	43.9	$0.40	109.8
55	DeepSeek: DeepSeek V3.2 Speciale	87.1	$0.80	108.9
56	Mistral: Saba	42.4	$0.40	106.0
57	Kwaipilot: KAT-Coder-Pro V2	76.4	$0.75	101.9
58	Qwen: Qwen2.5 VL 72B Instruct	49.1	$0.50	98.2
59	Qwen: Qwen3 235B A22B Thinking 2507	79.0	$0.82	96.1
60	Z.ai: GLM 4.6V	56.6	$0.60	94.3
61	Meta: Llama 3.2 11B Vision Instruct	22.1	$0.24	90.2
62	xAI: Grok Code Fast 1	72.7	$0.85	85.5
63	Qwen: Qwen3 VL 30B A3B Thinking	72.0	$0.84	85.2
64	Qwen: Qwen3 VL 8B Thinking	57.9	$0.74	78.1
65	OpenAI: GPT-5 Mini	82.8	$1.13	73.6
66	Nous: Hermes 3 405B Instruct	72.7	$1.00	72.7
67	OpenAI: GPT-5.1-Codex-Mini	81.3	$1.13	72.3
68	OpenAI: GPT-4.1 Mini	66.4	$1.00	66.4
69	MoonshotAI: Kimi K2 0905	76.7	$1.20	63.9
70	MoonshotAI: Kimi K2.5	76.6	$1.22	62.8
71	OpenAI: GPT-5.4 Nano	42.8	$0.72	59.0
72	Google: Gemini 2.5 Flash	81.2	$1.40	58.0
73	Z.ai: GLM 4.5V	68.4	$1.20	57.0
74	Mistral: Mixtral 8x7B Instruct	29.2	$0.54	54.1
75	MoonshotAI: Kimi K2 Thinking	83.8	$1.55	54.1
76	Qwen: Qwen3 VL 235B A22B Thinking	77.2	$1.43	54.0
77	Qwen: Qwen3 235B A22B	61.3	$1.14	53.9
78	MiniMax: MiniMax M1	69.7	$1.30	53.6
79	DeepSeek: R1 Distill Llama 70B	40.2	$0.75	53.6
80	MoonshotAI: Kimi K2 0711	76.6	$1.44	53.4
81	DeepSeek: R1	81.3	$1.60	50.8
82	Qwen2.5 Coder 32B Instruct	41.7	$0.83	50.2
83	Mistral: Mistral Medium 3.1	58.8	$1.20	49.0
84	Mistral: Mistral Medium 3	58.8	$1.20	49.0
85	Perplexity: Sonar	47.1	$1.00	47.1
86	Mistral: Devstral Medium	49.2	$1.20	41.0
87	NVIDIA: Llama 3.1 Nemotron 70B Instruct	46.5	$1.20	38.8
88	Qwen: Qwen3 Max Thinking	77.6	$2.34	33.2
89	OpenAI: GPT-3.5 Turbo	29.7	$1.00	29.7
90	OpenAI: o4 Mini	78.4	$2.75	28.5
91	MoonshotAI: Kimi K2.6	76.6	$2.70	28.4
92	OpenAI: o3 Mini High	77.3	$2.75	28.1
93	OpenAI: o3 Mini	74.8	$2.75	27.2
94	OpenAI: GPT-5.4 Mini	66.4	$2.63	25.3
95	Qwen: Qwen3 Max	58.7	$2.34	25.1
96	Anthropic: Claude Haiku 4.5	67.2	$3.00	22.4
97	Mistral Large	68.0	$4.00	17.0
98	OpenAI: o3	82.7	$5.00	16.5
99	OpenAI: GPT-5 Codex	86.0	$5.63	15.3
100	OpenAI: GPT-5.1-Codex	86.0	$5.63	15.3
101	OpenAI: GPT-5	85.4	$5.63	15.2
102	Google: Gemini 2.5 Pro	84.4	$5.63	15.0
103	Google: Gemini 2.5 Pro Preview 05-06	82.2	$5.63	14.6
104	Mistral: Pixtral Large 2411	50.5	$4.00	12.6
105	Mistral Large 2407	47.2	$4.00	11.8
106	OpenAI: GPT-5.2-Codex	86.0	$7.88	10.9
107	OpenAI: GPT-4o	54.3	$6.25	8.7
108	Anthropic: Claude 3.7 Sonnet (thinking)	77.2	$9.00	8.6
109	Cohere: Command A	52.7	$6.25	8.4
110	AI21: Jamba Large 1.7	39.0	$5.00	7.8
111	Anthropic: Claude Sonnet 4	59.9	$9.00	6.7
112	Anthropic: Claude Sonnet 4.5	59.9	$9.00	6.7
113	Anthropic: Claude Sonnet 4.6	59.9	$9.00	6.7
114	Perplexity: Sonar Pro	57.8	$9.00	6.4
115	OpenAI: GPT-4o (2024-05-13)	52.6	$10.00	5.3
116	xAI: Grok 3 Beta	47.1	$9.00	5.2
117	Cohere: Command R+ (08-2024)	32.3	$6.25	5.2
118	Anthropic: Claude Opus 4.7	48.9	$15.00	3.3
119	Anthropic: Claude Opus 4.6	48.9	$15.00	3.3
120	Anthropic: Claude Opus 4.5	48.9	$15.00	3.3
121	OpenAI: o1	74.7	$37.50	2.0
122	Anthropic: Claude Opus 4	48.9	$45.00	1.1