这么多AI模型,我到底怎么选?
目前网站支持 GPT3.5、 GPT4.0、 文心一言、讯飞星火、阿里通义千问等等大模型。模型有这么多,应该怎么选呢?这里可以参考一下各个评测机构的数据。
C-Eval
C-Eval是一个全面的中文基础模型评估套件。 它由13948个多项选择题组成,涵盖52个不同的学科和四个难度级别,如下所示。 您可以在Explore查看我们的数据集示例,或查看我们的论文以了解更多详细信息。涵盖了52个不同学科的13948个多项选择题, 分为四个难度级别。更多详情参考网站。
https://cevalbenchmark.com/static/leaderboard.html
SuperCLUE
中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。
它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?
它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新
总排行榜(2023年11月)
排名 | 模型 | 机构 | 总分 | OPEN 多轮开放问题 | OPT 能力客观题 |
---|---|---|---|---|---|
- | GPT4-Turbo | OpenAI | 89.79 | 97.53 | 78.18 |
- | GPT-4 | OpenAI | 75.14 | 73.01 | 78.33 |
🏅️ | 文心一言4.0 | 百度 | 74.02 | 73.62 | 74.61 |
🥈 | Moonshot | 月之暗面 | 72.88 | 71.47 | 74.99 |
🥉 | Yi-34B-Chat | 零一万物 | 71.87 | 71.21 | 72.85 |
4 | BlueLM | vivo | 67.14 | 64.88 | 70.53 |
5 | 腾讯混元 | 腾讯 | 66.96 | 62.27 | 74 |
6 | 通义千问2.0(v1030) | 阿里巴巴 | 66.94 | 61.01 | 75.83 |
7 | ChatGLM3-Turbo | 清华&智谱 | 66.5 | 63.27 | 71.34 |
- | Claude2 | Anthropic | 60.62 | 57.82 | 64.82 |
8 | 云雀大模型(豆包) | 字节跳动 | 60.42 | 55.96 | 67.11 |
- | GPT3.5-Turbo | OpenAI | 59.39 | 57.16 | 62.73 |
9 | XVERSE-13B-2-Chat | 元象科技 | 58.31 | 49.95 | 70.84 |
10 | Qwen-14B-Chat | 阿里巴巴 | 57.9 | 49.05 | 71.18 |
11 | 讯飞星火V3.0 | 科大讯飞 | 57.18 | 51 | 66.45 |
12 | Baichuan2-13B-Chat | 百川智能 | 56.33 | 50.33 | 65.33 |
13 | MiniMax-Abab5.5 | MiniMax | 55.08 | 45.27 | 69.8 |
14 | 360GPT_S2_V10 | 360 | 46.47 | 33.35 | 66.14 |
15 | ChatGLM3-6B | 清华&智谱 | 46.24 | 38.01 | 58.58 |
16 | Chinese-Alpaca-2-13B | yiming cui | 43.42 | 38.09 | 51.42 |
- | Llama-2-13B-Chat | Meta | 31.47 | 28.67 | 35.67 |
Last updated