本排名的数据来源为LMSYS Chatbot Arena Leaderboard。LMSYS全称为LMSYS Organization,由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立,是一个专注于LLM模型研究和评估的组织。他们开发了Chatbot Arena,这是一个开放的LLM模型测评平台,旨在通过收集用户反馈来评估和比较不同LLMs的性能。Chatbot Arena的核心功能包括模型对战(Arena Battle),实时聊天(Direct Chat),排行榜(Leaderboard)。
LMSYS采用了类似于国际象棋等竞技游戏中广泛使用的Elo评分系统,通过众包方式进行匿名、随机对抗测评。在Chatbot Arena中,系统会随机选择两个不同的大型语言模型进行比较,用户在与这些模型的互动中进行评估,并在匿名的情况下选择哪款模型的表现更佳。这种评测方式旨在提供一个公正、透明的评估环境,帮助研究者和开发者了解和改进他们的模型。
截至目前,LMSYS共有99个大语言模型参与测评,总投票数已超百万。
Chatbot Arena (lmarena.ai) is an open-source platform for evaluating AI through human preference, developed by researchers at UC Berkeley SkyLab and LMSYS. With over 1,000,000 user votes, the platform ranks best LLM and AI chatbots using the Bradley-Terry model to generate live leaderboards.
How It Works
- Blind Test: Ask any question to two anonymous AI chatbots (ChatGPT, Gemini, Claude, Llama, and more).
- Vote for the Best: Choose the best response. You can keep chatting until you find a winner.
- Play Fair: If AI identity reveals, your vote won’t count.
Rank* (UB) | Model | Arena Score | Votes | Organization | License | Knowledge Cutoff |
1 | o1-preview | 1339 | 9169 | OpenAI | Proprietary | Oct-23 |
1 | ChatGPT-4o-latest (2024-09-03) | 1337 | 16685 | OpenAI | Proprietary | Oct-23 |
3 | o1-mini | 1314 | 9136 | OpenAI | Proprietary | Oct-23 |
4 | Gemini-1.5-Pro-Exp-0827 | 1299 | 31928 | Proprietary | Nov-23 | |
4 | Grok-2-08-13 | 1293 | 27731 | xAI | Proprietary | Mar-24 |
6 | GPT-4o-2024-05-13 | 1285 | 93428 | OpenAI | Proprietary | Oct-23 |
7 | GPT-4o-mini-2024-07-18 | 1272 | 33166 | OpenAI | Proprietary | Oct-23 |
7 | Claude 3.5 Sonnet | 1269 | 67165 | Anthropic | Proprietary | Apr-24 |
7 | Gemini-1.5-Flash-Exp-0827 | 1269 | 25027 | Proprietary | Nov-23 | |
7 | Grok-2-Mini-08-13 | 1268 | 24956 | xAI | Proprietary | Mar-24 |
7 | Gemini Advanced App (2024-05-14) | 1266 | 52218 | Proprietary | Online | |
7 | Meta-Llama-3.1-405b-Instruct-bf16 | 1266 | 8787 | Meta | Llama 3.1 Community | Dec-23 |
7 | Meta-Llama-3.1-405b-Instruct-fp8 | 1266 | 33654 | Meta | Llama 3.1 Community | Dec-23 |
8 | GPT-4o-2024-08-06 | 1264 | 25215 | OpenAI | Proprietary | Oct-23 |
10 | Qwen2.5-72b-Instruct | 1257 | 6017 | Alibaba | Qwen | Sep-24 |
12 | Gemini-1.5-Pro-001 | 1260 | 83372 | Proprietary | Nov-23 | |
15 | GPT-4-Turbo-2024-04-09 | 1257 | 94353 | OpenAI | Proprietary | Dec-23 |
15 | Deepseek-v2.5 | 1252 | 8362 | DeepSeek | DeepSeek | Unknown |
16 | Mistral-Large-2407 | 1251 | 29934 | Mistral | Mistral Research | Jul-24 |
17 | GPT-4-1106-preview | 1251 | 98754 | OpenAI | Proprietary | Apr-23 |
17 | Athene-70b | 1250 | 20690 | NexusFlow | CC-BY-NC-4.0 | Jul-24 |
17 | Meta-Llama-3.1-70b-Instruct | 1249 | 28776 | Meta | Llama 3.1 Community | Dec-23 |
18 | Claude 3 Opus | 1248 | 168202 | Anthropic | Proprietary | Aug-23 |
18 | GPT-4-0125-preview | 1245 | 91889 | OpenAI | Proprietary | Dec-23 |
25 | Yi-Large-preview | 1240 | 51707 | 01 AI | Proprietary | Unknown |
26 | Reka-Core-20240722 | 1230 | 13317 | Reka AI | Proprietary | Unknown |
26 | Qwen-Plus-0828 | 1227 | 9450 | Alibaba | Proprietary | Unknown |
26 | Gemini-1.5-Flash-001 | 1227 | 66178 | Proprietary | Nov-23 | |
26 | Jamba-1.5-Large | 1221 | 9178 | AI21 Labs | Jamba Open | Mar-24 |
28 | Deepseek-v2-API-0628 | 1219 | 19612 | DeepSeek AI | DeepSeek | Unknown |
28 | Gemma-2-9b-it-SimPO | 1216 | 10613 | Princeton | MIT | Jul-24 |
29 | Gemma-2-27b-it | 1218 | 40183 | Gemma license | Jun-24 | |
29 | Deepseek-Coder-v2-0724 | 1214 | 11768 | DeepSeek | Proprietary | Unknown |
29 | Yi-Large | 1212 | 16671 | 01 AI | Proprietary | Unknown |
29 | Command R+ (08-2024) | 1210 | 7603 | Cohere | CC-BY-NC-4.0 | Aug-24 |
32 | Nemotron-4-340B-Instruct | 1209 | 20639 | Nvidia | NVIDIA Open Model | Jun-23 |
32 | GLM-4-0520 | 1206 | 10227 | Zhipu AI | Proprietary | Unknown |
35 | Llama-3-70b-Instruct | 1206 | 163885 | Meta | Llama 3 Community | Dec-23 |
35 | Gemini-1.5-Flash-8b-Exp-0827 | 1205 | 24999 | Proprietary | Nov-23 | |
35 | Reka-Flash-20240722 | 1201 | 13772 | Reka AI | Proprietary | Unknown |
38 | Claude 3 Sonnet | 1201 | 113008 | Anthropic | Proprietary | Aug-23 |
38 | Reka-Core-20240501 | 1200 | 62594 | Reka AI | Proprietary | Unknown |
43 | Command R+ (04-2024) | 1190 | 80872 | Cohere | CC-BY-NC-4.0 | Mar-24 |
43 | Gemma-2-9b-it | 1189 | 31557 | Gemma license | Jun-24 | |
43 | Qwen2-72B-Instruct | 1187 | 38981 | Alibaba | Qianwen LICENSE | Jun-24 |
43 | GPT-4-0314 | 1186 | 55943 | OpenAI | Proprietary | Sep-21 |
43 | GLM-4-0116 | 1183 | 7579 | Zhipu AI | Proprietary | Unknown |
45 | Qwen-Max-0428 | 1183 | 25706 | Alibaba | Proprietary | Unknown |
47 | Claude 3 Haiku | 1179 | 116238 | Anthropic | Proprietary | Aug-23 |
47 | DeepSeek-Coder-V2-Instruct | 1178 | 15793 | DeepSeek AI | DeepSeek License | Jun-24 |
47 | Jamba-1.5-Mini | 1176 | 9303 | AI21 Labs | Jamba Open | Mar-24 |
47 | Command R (08-2024) | 1176 | 7838 | Cohere | CC-BY-NC-4.0 | Aug-24 |
50 | Meta-Llama-3.1-8b-Instruct | 1172 | 26825 | Meta | Llama 3.1 Community | Dec-23 |
GPT-4系列模型
几乎是毫无疑问地,GPT-4系列模型夺得前三甲,尤其是刚推出的o
1模型,更是在刚发布就直接登顶,可谓是“出道即巅峰”。
谷歌Gemini系列模型
在这个最新的排行榜里,谷歌的Gemini 1.5 Pro
以微弱的优势打败了Claude 3 Opus
,位居第四。在之前我也写了不少的文章来介绍Gemini 1.5 Pro
模型,首先是它的上下文长度,达到了惊人的100万(确切的说是104万tokens),而5月份的谷歌I/O开发者大会上,更是宣布Gemini 1.5 Pro
的上下文长度已经达到了200万,但这个长度需要提交申请排waitlist才能体验。其次是它的多模态能力。最重磅的是它支持视频输入,直接就能够分析视频内容。
Claude 3系列模型
Claude 3系列模型共有3档:Claude 3 Opus
,Claude 3 Sonnet
,Claude 3 Haiku
。这三挡模型的能力依次降低,响应速度依次提高,价格依次降低。这其实也很好理解,推理能力越强的模型需要更多的时间来理解、推断,所以响应速度也就相对较慢。值得一提的是,Claude 3 Opus
曾经超越GPT-4,登顶这个排行榜,后来又被反超。
国产模型:Yi-Large
国产LLM模型在LMSYS榜单中的曾经最高排名来自零一万物的Yi-Large-preview
。不得不说,这是国内AI领域的荣耀时刻。目前已经下降到25位。
零一万物公司由创新工场创始人兼CEO李开复领导,成立于2023年,短短几个月内就发布了首款中英双语大模型Yi系列。Yi-Large
模型是Yi系列模型的最新力作,是一款拥有千亿参数的闭源大模型。除了本文提到的LMSYS排行榜,在斯坦福大学最新的AlpacaEval 2.0评估中,Yi-Large在全球大模型的胜率排名第三,仅次于GPT-4o
和GPT-4-Turbo
,在中文SuperCLUE评估中则位于国产大模型的榜首。
国产模型:Qwen
来自阿里的通义系列模型之一的Qwen2.5-72b-Instruct
,当前排名上升到第10名。
国产模型:GLM-4
GLM-4
模型来自智谱AI,目前GLM-4-0
520排名第35名。智谱AI这家公司源自清华大学计算机系的技术成果转化,致力于打造新一代认知智能通用模型。