渗透智能 - ShirtAI
首页大模型APIShirtAI创作ShirtAI社区ShirtAI博客其他AI
  • 开始使用
    • 介绍
    • 快速开始
    • 视频讲解
      • 注册登录
      • 对话功能
      • 套餐选购
      • APP/客户端下载
  • AI 问答
    • 基础
    • 高级
    • 特殊模型
      • ShirtAI搜索
      • SUNO AI(AI生成歌曲,需1-3分钟)
      • Domo AI(上传图片链接,图生视频)
      • Domo AI(上传视频链接,转换风格)
      • Pika(AI文生视频)
  • AI 绘画
    • 基础
    • 进阶
    • 参数
      • Version-版本
      • Niji 模型
      • Aspect Rations 横纵比
      • chaos 影响结果的变化程度
      • No 否定提示
      • Quality 生成质量
      • Seeds 种子值
      • Stylize 风格化
      • Stop 在生成过程中停止
      • iw参数
      • cw参数
    • Prompt篇
    • Midjourney V6版本详解
    • Midjourney 常见敏感/违禁词
    • Midjourney 提示词汇总
  • ShirtAI PPT
    • 使用步骤
    • 积分消耗
  • 艺术创作
    • 艺术创作积分消耗
    • 艺术二维码
    • 艺术字
    • 隐藏文字
    • 光影文字
    • 创意融合
  • AI视频
    • 文生视频
      • SD-Animation
      • Animate-Diff
    • 图生视频SVD
  • 额外功能
    • AI音乐
    • AI思维导图
    • PDF解析
  • 其他
    • 插件介绍
    • 智能体模型介绍
    • 最强模型o1-preview、o1-mini
    • 工具推荐
      • 高清放大/增强
      • 抠图/去除背景
  • 定价
    • 会员类型
    • 积分消耗明细
  • 常见问题
    • 如何使用兑换码兑换积分
    • 模型平台创建连接响应异常
    • 为什么GPT不知道自己身份?
    • 如何调整上下文携带条目数
    • ShirtAI-S和内置应用有什么区别
    • ShirtAI-4和ShirtAI-S模型输出缓慢
    • 这么多AI模型,我到底怎么选?
    • AI绘画错误问题汇总
    • 关于AI作品版权
    • 4K、HD等所谓的Rendering词有用吗?
    • 咒语的词语顺序会影响结果吗?
  • 招收代理
    • 游戏规则
  • 关于我们
    • 联系方式
    • 更新日志
      • 2024.6.4 Version 2.5.1
      • 2024.5.25 Version 2.5.0
      • 2024.4.28 Version 2.4.0
      • 2024.3.18 Version 2.3.0
      • 2024.2.14 Version 2.2.0
      • 2024.1.1 Version 2.1.1
      • 2024.1.1 Version 2.1.0
      • 2023.12.21 Version 2.0.0
      • 2023.12.10 Version 1.9.3
      • 2023.11.27 Version 1.9.2
      • 2023.11.22 Version 1.9.1
      • 2023.11.18 Version 1.9.0
  • 协议政策
    • 用户协议
    • 隐私政策
Powered by GitBook
On this page
  • C-Eval
  • SuperCLUE
  • 总排行榜(2023年11月)

Was this helpful?

  1. 常见问题

这么多AI模型,我到底怎么选?

目前网站支持 GPT3.5、 GPT4.0、 文心一言、讯飞星火、阿里通义千问等等大模型。模型有这么多,应该怎么选呢?这里可以参考一下各个评测机构的数据。

PreviousShirtAI-4和ShirtAI-S模型输出缓慢NextAI绘画错误问题汇总

Last updated 1 year ago

Was this helpful?

C-Eval

C-Eval是一个全面的中文基础模型评估套件。 它由13948个多项选择题组成,涵盖52个不同的学科和四个难度级别,如下所示。 您可以在Explore查看我们的数据集示例,或查看我们的论文以了解更多详细信息。涵盖了52个不同学科的13948个多项选择题, 分为四个难度级别。更多详情参考网站。

SuperCLUE

中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。

它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?

它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新

总排行榜(2023年11月)

排名
模型
机构
总分
OPEN 多轮开放问题
OPT 能力客观题

-

GPT4-Turbo

OpenAI

89.79

97.53

78.18

-

GPT-4

OpenAI

75.14

73.01

78.33

🏅️

文心一言4.0

百度

74.02

73.62

74.61

🥈

Moonshot

月之暗面

72.88

71.47

74.99

🥉

Yi-34B-Chat

零一万物

71.87

71.21

72.85

4

BlueLM

vivo

67.14

64.88

70.53

5

腾讯混元

腾讯

66.96

62.27

74

6

通义千问2.0(v1030)

阿里巴巴

66.94

61.01

75.83

7

ChatGLM3-Turbo

清华&智谱

66.5

63.27

71.34

-

Claude2

Anthropic

60.62

57.82

64.82

8

云雀大模型(豆包)

字节跳动

60.42

55.96

67.11

-

GPT3.5-Turbo

OpenAI

59.39

57.16

62.73

9

XVERSE-13B-2-Chat

元象科技

58.31

49.95

70.84

10

Qwen-14B-Chat

阿里巴巴

57.9

49.05

71.18

11

讯飞星火V3.0

科大讯飞

57.18

51

66.45

12

Baichuan2-13B-Chat

百川智能

56.33

50.33

65.33

13

MiniMax-Abab5.5

MiniMax

55.08

45.27

69.8

14

360GPT_S2_V10

360

46.47

33.35

66.14

15

ChatGLM3-6B

清华&智谱

46.24

38.01

58.58

16

Chinese-Alpaca-2-13B

yiming cui

43.42

38.09

51.42

-

Llama-2-13B-Chat

Meta

31.47

28.67

35.67

https://cevalbenchmark.com/static/leaderboard.html
https://www.superclueai.com/