应用评测(Beta)

快速了解 FastGPT 应用评测功能

FastGPT v4.11.0 版本开始支持应用批量评测功能。通过传入多组问答对,系统会对应用执行结果进行自动打分,实现应用运行效果的定量评估。

系统支持三种评估指标:回答准确性、问题相关性和语义准确性。当前测试版仅包含回答准确性这一个指标,其余指标将在后续版本中补充完善。

创建应用评测

进入评测页面

创建应用评测

进入工作台下的应用评测目录,点击右上角的"创建任务"按钮。

填写评测信息

创建应用评测

在创建任务页面中,需要填写以下信息:

  • 评测任务名:任务的标识名称
  • 评测模型:用于本次任务打分的模型
  • 评测应用:需要被打分的应用

准备评测数据

创建应用评测

选择评测应用后,系统会弹出下载CSV模板的按钮。模板包含以下字段:

  • 全局变量
  • q(问题)
  • a(标准答案)
  • 历史记录

注意事项:

  • 最多支持1000组问答对
  • 请按照模板格式填写数据

填写完成后上传文件并点击"开始评测",即可创建一个应用评测任务

查看应用评测

评测列表

查看应用评测

评测列表页面显示所有评测任务,包含以下关键信息:

  • 进度:当前评测任务的执行状态
  • 执行人:创建评测任务的用户
  • 评测应用:被评测的应用名称
  • 开始时间/结束时间:评测任务的执行时间范围
  • 综合评分:评测任务的整体得分

通过这些信息,可以清晰地比较每次应用改进后的效果。

评测详情

查看应用评测

点击"查看详情"可进入评测任务的详情页面:

任务概览:页面顶部显示任务的整体信息,包括评测配置和统计结果。

详细结果:页面下方展示评测任务中的每一条问答对及其评分,可以查看:

  • 用户问题
  • 标准输出
  • 应用输出