这么多AI模型,我到底怎么选?
目前网站支持 GPT3.5、 GPT4.0、 文心一言、讯飞星火、阿里通义千问等等大模型。模型有这么多,应该怎么选呢?这里可以参考一下各个评测机构的数据。
Last updated
目前网站支持 GPT3.5、 GPT4.0、 文心一言、讯飞星火、阿里通义千问等等大模型。模型有这么多,应该怎么选呢?这里可以参考一下各个评测机构的数据。
Last updated
C-Eval是一个全面的中文基础模型评估套件。 它由13948个多项选择题组成,涵盖52个不同的学科和四个难度级别,如下所示。 您可以在Explore查看我们的数据集示例,或查看我们的论文以了解更多详细信息。涵盖了52个不同学科的13948个多项选择题, 分为四个难度级别。更多详情参考网站。
https://cevalbenchmark.com/static/leaderboard.html
中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。
它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?
它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新
排名 | 模型 | 机构 | 总分 | OPEN 多轮开放问题 | OPT 能力客观题 |
---|---|---|---|---|---|
-
GPT4-Turbo
OpenAI
89.79
97.53
78.18
-
GPT-4
OpenAI
75.14
73.01
78.33
🏅️
文心一言4.0
百度
74.02
73.62
74.61
🥈
Moonshot
月之暗面
72.88
71.47
74.99
🥉
Yi-34B-Chat
零一万物
71.87
71.21
72.85
4
BlueLM
vivo
67.14
64.88
70.53
5
腾讯混元
腾讯
66.96
62.27
74
6
通义千问2.0(v1030)
阿里巴巴
66.94
61.01
75.83
7
ChatGLM3-Turbo
清华&智谱
66.5
63.27
71.34
-
Claude2
Anthropic
60.62
57.82
64.82
8
云雀大模型(豆包)
字节跳动
60.42
55.96
67.11
-
GPT3.5-Turbo
OpenAI
59.39
57.16
62.73
9
XVERSE-13B-2-Chat
元象科技
58.31
49.95
70.84
10
Qwen-14B-Chat
阿里巴巴
57.9
49.05
71.18
11
讯飞星火V3.0
科大讯飞
57.18
51
66.45
12
Baichuan2-13B-Chat
百川智能
56.33
50.33
65.33
13
MiniMax-Abab5.5
MiniMax
55.08
45.27
69.8
14
360GPT_S2_V10
360
46.47
33.35
66.14
15
ChatGLM3-6B
清华&智谱
46.24
38.01
58.58
16
Chinese-Alpaca-2-13B
yiming cui
43.42
38.09
51.42
-
Llama-2-13B-Chat
Meta
31.47
28.67
35.67