《大模型评测系统》课件.pptxVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

《大模型评测系统》

背景

大语言模型诞生阶段

2017年:谷歌推出用于处理自然语言任务的Transformer神经网络架构2018年:OpenAI发布GPT-1

大语言模型爆发阶段

2022年:OpenAI推出ChatGPT-3.5

2023年:

微软基于ChatGPT发布NewBing

FaceBook发布LLaMA-13B

谷歌发布Bard以应对ChatGPT

OpenAI发布ChatGPT-4并实现图像识别

文心一言、通义千问、盘古NLP、天工3.5、星火等国产大模型陆续发布

大语言模型探索阶段

2019年:

OpenAI发布GPT-2并部分开源

谷歌推出BERT模型

2020年:百度推出可以准确理解语义的ERNINE2.0

2021年:OpenAI推出能实现文本生成图像的DALL-E模型

我们的愿景

促进产业、社会可持续发展

核心目标

致力建立一套科学、公平、客观、安全可信的评测体系

设计理念

与企业围绕“多层次-多维度-多任务-多指标-多模式”,能够公平、客观、快速、准确地评估大模型的能力,为大模型自身能力水平和落地应用提供详尽可信的分析报告,从而帮助研究人员更好地把握模型的性能和适用范围

美好愿景

评估大模型能力,为人工智能产业发展提供强大动力

客观性

生成类的任务,需要人工评测

主观、耗时耗力

难以保障评测的客观性

准确性

模型对Prompt指令敏感

不好区分Prompt写的不好还是模型问题

难以保障评测结果的准确性

深入性

目前仍属于“黑盒”测试

无法深入探知模型内部处理过程

无法开展“白盒”测试

公平性

依赖大量评测数据

公开数据集很可能已被用于模型训练

无法保障评测的公平性

全面性

大模型能力是多样的

很难找出能力边界

难以保障评测的全面性

大模型评测面临的挑战

社保

安全可信

功能指标

智能评测+人工评测

九天大模型评测方案

多层次-多维度-多任务-多指标-多模式大模型评测体系

行业模型

业务维度

政务大模型

公积金

...

客服大模型

其他行业大模型

流量

宽带

...

...

...

...

通用模型评测维度评测任务

语言大模型

视觉大模型

多模态大模型

图-文转

理解 交互 ... 推理 代码

阅读理解 摘要生成 判断推理 代码补全实体识别 实体识别 ... 逻辑推理 代码编写

目标检测

人脸识别物体分类

...

...

文本换转图

图转文本

...

...

评测指标

任务支持度场景支持度

性能指标

客观指标:准确性、鲁棒性...主观指标:准确性、安全性...

服务成熟度

实时性并发性稳定性

评测模式

九天大模型评测基准

4大评测维度、5大类性能指标、400+评测任务、600+评测场景、海量评测数据

评测维度

4大评测维度:基础评测、专项评测、领域评测、体验评测

400+评测任务

600+评测场景

评测数据

海量开源数据集

自建数据集

评测指标

5大类评测指标:

准确性、鲁棒性——着重指大模型的功能、稳定性表现安全性、公平性——着重指大模型的非功能表现

高效性——着重指大模型的响应能力

4大评测维度

覆盖基础评测、专项评测、领域评测、体验评测

基本性能评估

基础评测

理解能力

生成能力

安全能力

交互能力

...

推理能力

...

特色任务上的

性能评估

专项评测

价值观

职场类

特定领域/行业

应用性能评估

领域评测

医疗

可用准确性、鲁棒性、安全性指标评估。

可用公平性/偏见性、准确性、鲁棒性、安全性指标评测。

可通过行标来衡量:合规性、专业性、可靠性。

考试类

...

政务 客服

... ...

...

编.程..类

...

体验评测

依赖于用户的主观评价,可通过问卷调查、用户访谈等收集数据。

使用模型时的

主观体验评测

情感能力 语言理解

创作生成

...

知识百科

...

海量评测数据集

涵盖基础评测数据、专项评测数据、安全评测数据等

选取原则:选取种类丰富、具有代表性、大规模的评测数据,以便衡量大模型的性能、泛化能力和安全性

选取原则

多样性

去重噪音与重复的数据,统一结构等

构建过程

学术公开、专项、用户、行业、自研

建设方向

通用领域+垂直领域

不同的数据分布

不同的噪声水平

代表在实际应用遇到的各种情况

反应实际世界的数据分布和复杂性

足够大

数据来源

数据筛选

人工和自主筛选,选取高质量数据

数据清洗

数据标注

安全可信

依法依规

公平公正

合作开放

规模性

代表性

大模型评测系统先进性

评测系统特色

评测流程简单化

评测数据标准化

Prompt指令多样化

评分方式多元化

多轮对话自动化

评测报告可视化

市场产品维度对比

评测流程简单化

数据准备

准备评测数据集

模型注册

准备模型信息

模型评测

发起模型评测

查看报告

文档评论(0)

1658576823bd104 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档