全球LLM大模型综合排名

本排名的数据来源为LMSYS Chatbot Arena Leaderboard。LMSYS全称为LMSYS Organization，由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立，是一个专注于LLM模型研究和评估的组织。他们开发了Chatbot Arena，这是一个开放的LLM模型测评平台，旨在通过收集用户反馈来评估和比较不同LLMs的性能。Chatbot Arena的核心功能包括模型对战（Arena Battle），实时聊天（Direct Chat），排行榜（Leaderboard）。

LMSYS采用了类似于国际象棋等竞技游戏中广泛使用的Elo评分系统，通过众包方式进行匿名、随机对抗测评。在Chatbot Arena中，系统会随机选择两个不同的大型语言模型进行比较，用户在与这些模型的互动中进行评估，并在匿名的情况下选择哪款模型的表现更佳。这种评测方式旨在提供一个公正、透明的评估环境，帮助研究者和开发者了解和改进他们的模型。

截至目前，LMSYS共有99个大语言模型参与测评，总投票数已超百万。

Chatbot Arena (lmarena.ai) is an open-source platform for evaluating AI through human preference, developed by researchers at UC Berkeley SkyLab and LMSYS. With over 1,000,000 user votes, the platform ranks best LLM and AI chatbots using the Bradley-Terry model to generate live leaderboards.

How It Works

Blind Test: Ask any question to two anonymous AI chatbots (ChatGPT, Gemini, Claude, Llama, and more).
Vote for the Best: Choose the best response. You can keep chatting until you find a winner.
Play Fair: If AI identity reveals, your vote won’t count.

Rank* (UB)	Model	Arena Score	Votes	Organization	License	Knowledge Cutoff
1	o1-preview	1339	9169	OpenAI	Proprietary	Oct-23
1	ChatGPT-4o-latest (2024-09-03)	1337	16685	OpenAI	Proprietary	Oct-23
3	o1-mini	1314	9136	OpenAI	Proprietary	Oct-23
4	Gemini-1.5-Pro-Exp-0827	1299	31928	Google	Proprietary	Nov-23
4	Grok-2-08-13	1293	27731	xAI	Proprietary	Mar-24
6	GPT-4o-2024-05-13	1285	93428	OpenAI	Proprietary	Oct-23
7	GPT-4o-mini-2024-07-18	1272	33166	OpenAI	Proprietary	Oct-23
7	Claude 3.5 Sonnet	1269	67165	Anthropic	Proprietary	Apr-24
7	Gemini-1.5-Flash-Exp-0827	1269	25027	Google	Proprietary	Nov-23
7	Grok-2-Mini-08-13	1268	24956	xAI	Proprietary	Mar-24
7	Gemini Advanced App (2024-05-14)	1266	52218	Google	Proprietary	Online
7	Meta-Llama-3.1-405b-Instruct-bf16	1266	8787	Meta	Llama 3.1 Community	Dec-23
7	Meta-Llama-3.1-405b-Instruct-fp8	1266	33654	Meta	Llama 3.1 Community	Dec-23
8	GPT-4o-2024-08-06	1264	25215	OpenAI	Proprietary	Oct-23
10	Qwen2.5-72b-Instruct	1257	6017	Alibaba	Qwen	Sep-24
12	Gemini-1.5-Pro-001	1260	83372	Google	Proprietary	Nov-23
15	GPT-4-Turbo-2024-04-09	1257	94353	OpenAI	Proprietary	Dec-23
15	Deepseek-v2.5	1252	8362	DeepSeek	DeepSeek	Unknown
16	Mistral-Large-2407	1251	29934	Mistral	Mistral Research	Jul-24
17	GPT-4-1106-preview	1251	98754	OpenAI	Proprietary	Apr-23
17	Athene-70b	1250	20690	NexusFlow	CC-BY-NC-4.0	Jul-24
17	Meta-Llama-3.1-70b-Instruct	1249	28776	Meta	Llama 3.1 Community	Dec-23
18	Claude 3 Opus	1248	168202	Anthropic	Proprietary	Aug-23
18	GPT-4-0125-preview	1245	91889	OpenAI	Proprietary	Dec-23
25	Yi-Large-preview	1240	51707	01 AI	Proprietary	Unknown
26	Reka-Core-20240722	1230	13317	Reka AI	Proprietary	Unknown
26	Qwen-Plus-0828	1227	9450	Alibaba	Proprietary	Unknown
26	Gemini-1.5-Flash-001	1227	66178	Google	Proprietary	Nov-23
26	Jamba-1.5-Large	1221	9178	AI21 Labs	Jamba Open	Mar-24
28	Deepseek-v2-API-0628	1219	19612	DeepSeek AI	DeepSeek	Unknown
28	Gemma-2-9b-it-SimPO	1216	10613	Princeton	MIT	Jul-24
29	Gemma-2-27b-it	1218	40183	Google	Gemma license	Jun-24
29	Deepseek-Coder-v2-0724	1214	11768	DeepSeek	Proprietary	Unknown
29	Yi-Large	1212	16671	01 AI	Proprietary	Unknown
29	Command R+ (08-2024)	1210	7603	Cohere	CC-BY-NC-4.0	Aug-24
32	Nemotron-4-340B-Instruct	1209	20639	Nvidia	NVIDIA Open Model	Jun-23
32	GLM-4-0520	1206	10227	Zhipu AI	Proprietary	Unknown
35	Llama-3-70b-Instruct	1206	163885	Meta	Llama 3 Community	Dec-23
35	Gemini-1.5-Flash-8b-Exp-0827	1205	24999	Google	Proprietary	Nov-23
35	Reka-Flash-20240722	1201	13772	Reka AI	Proprietary	Unknown
38	Claude 3 Sonnet	1201	113008	Anthropic	Proprietary	Aug-23
38	Reka-Core-20240501	1200	62594	Reka AI	Proprietary	Unknown
43	Command R+ (04-2024)	1190	80872	Cohere	CC-BY-NC-4.0	Mar-24
43	Gemma-2-9b-it	1189	31557	Google	Gemma license	Jun-24
43	Qwen2-72B-Instruct	1187	38981	Alibaba	Qianwen LICENSE	Jun-24
43	GPT-4-0314	1186	55943	OpenAI	Proprietary	Sep-21
43	GLM-4-0116	1183	7579	Zhipu AI	Proprietary	Unknown
45	Qwen-Max-0428	1183	25706	Alibaba	Proprietary	Unknown
47	Claude 3 Haiku	1179	116238	Anthropic	Proprietary	Aug-23
47	DeepSeek-Coder-V2-Instruct	1178	15793	DeepSeek AI	DeepSeek License	Jun-24
47	Jamba-1.5-Mini	1176	9303	AI21 Labs	Jamba Open	Mar-24
47	Command R (08-2024)	1176	7838	Cohere	CC-BY-NC-4.0	Aug-24
50	Meta-Llama-3.1-8b-Instruct	1172	26825	Meta	Llama 3.1 Community	Dec-23

GPT-4系列模型

几乎是毫无疑问地，GPT-4系列模型夺得前三甲，尤其是刚推出的o1模型，更是在刚发布就直接登顶，可谓是“出道即巅峰”。

谷歌Gemini系列模型

在这个最新的排行榜里，谷歌的Gemini 1.5 Pro以微弱的优势打败了Claude 3 Opus，位居第四。在之前我也写了不少的文章来介绍Gemini 1.5 Pro模型，首先是它的上下文长度，达到了惊人的100万（确切的说是104万tokens），而5月份的谷歌I/O开发者大会上，更是宣布Gemini 1.5 Pro的上下文长度已经达到了200万，但这个长度需要提交申请排waitlist才能体验。其次是它的多模态能力。最重磅的是它支持视频输入，直接就能够分析视频内容。

Claude 3系列模型

Claude 3系列模型共有3档：Claude 3 Opus，Claude 3 Sonnet，Claude 3 Haiku。这三挡模型的能力依次降低，响应速度依次提高，价格依次降低。这其实也很好理解，推理能力越强的模型需要更多的时间来理解、推断，所以响应速度也就相对较慢。值得一提的是，Claude 3 Opus曾经超越GPT-4，登顶这个排行榜，后来又被反超。

国产模型：`Yi-Large`

国产LLM模型在LMSYS榜单中的曾经最高排名来自零一万物的Yi-Large-preview。不得不说，这是国内AI领域的荣耀时刻。目前已经下降到25位。

零一万物公司由创新工场创始人兼CEO李开复领导，成立于2023年，短短几个月内就发布了首款中英双语大模型Yi系列。Yi-Large模型是Yi系列模型的最新力作，是一款拥有千亿参数的闭源大模型。除了本文提到的LMSYS排行榜，在斯坦福大学最新的AlpacaEval 2.0评估中，Yi-Large在全球大模型的胜率排名第三，仅次于GPT-4o和GPT-4-Turbo，在中文SuperCLUE评估中则位于国产大模型的榜首。

国产模型：`Qwen`

来自阿里的通义系列模型之一的Qwen2.5-72b-Instruct，当前排名上升到第10名。

国产模型：`GLM-4`

GLM-4模型来自智谱AI，目前GLM-4-0520排名第35名。智谱AI这家公司源自清华大学计算机系的技术成果转化，致力于打造新一代认知智能通用模型。

How It Works

GPT-4系列模型

谷歌Gemini系列模型

Claude 3系列模型

国产模型：Yi-Large

国产模型：Qwen

国产模型：GLM-4

发表评论 取消回复

国产模型：`Yi-Large`

国产模型：`Qwen`

国产模型：`GLM-4`

发表评论取消回复