这么多AI模型，我到底怎么选？

目前网站支持 GPT3.5、 GPT4.0、文心一言、讯飞星火、阿里通义千问等等大模型。模型有这么多，应该怎么选呢？这里可以参考一下各个评测机构的数据。

C-Eval

C-Eval是一个全面的中文基础模型评估套件。它由13948个多项选择题组成，涵盖52个不同的学科和四个难度级别，如下所示。您可以在Explore查看我们的数据集示例，或查看我们的论文以了解更多详细信息。涵盖了52个不同学科的13948个多项选择题，分为四个难度级别。更多详情参考网站。

https://cevalbenchmark.com/static/leaderboard.html

SuperCLUE

中文通用大模型综合性测评基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准。

它主要要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？

它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE，是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。目前包括三大基准：OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新

https://www.superclueai.com/

总排行榜（2023年11月）

排名

模型

机构

总分

OPEN 多轮开放问题

OPT 能力客观题

GPT4-Turbo

OpenAI

89.79

97.53

78.18

GPT-4

OpenAI

75.14

73.01

78.33

🏅️

文心一言4.0

百度

74.02

73.62

74.61

🥈

Moonshot

月之暗面

72.88

71.47

74.99

🥉

Yi-34B-Chat

零一万物

71.87

71.21

72.85

BlueLM

vivo

67.14

64.88

70.53

腾讯混元

腾讯

66.96

62.27

通义千问2.0(v1030)

阿里巴巴

66.94

61.01

75.83

ChatGLM3-Turbo

清华&智谱

66.5

63.27

71.34

Claude2

Anthropic

60.62

57.82

64.82

云雀大模型（豆包）

字节跳动

60.42

55.96

67.11

GPT3.5-Turbo

OpenAI

59.39

57.16

62.73

XVERSE-13B-2-Chat

元象科技

58.31

49.95

70.84

Qwen-14B-Chat

阿里巴巴

57.9

49.05

71.18

讯飞星火V3.0

科大讯飞

57.18

66.45

Baichuan2-13B-Chat

百川智能

56.33

50.33

65.33

MiniMax-Abab5.5

MiniMax

55.08

45.27

69.8

360GPT_S2_V10

360

46.47

33.35

66.14

ChatGLM3-6B

清华&智谱

46.24

38.01

58.58

Chinese-Alpaca-2-13B

yiming cui

43.42

38.09

51.42

Llama-2-13B-Chat