FastGPTFastGPT
应用构建/通用配置

AI 配置说明

FastGPT AI 配置说明

AI 配置用于调整应用或工作流中 AI 对话节点的模型、回复长度、图片识别、回复格式和思考展示等行为。本文主要介绍配置弹窗中的各项含义,以及常见场景下的选择方式。

配置入口

在应用编辑页中,找到 AI 配置 区域,选择 AI 模型后,点击模型选择框右侧的设置按钮,即可打开 AI 配置弹窗。

在工作流中,点击 AI 对话 节点的 AI 模型配置项,也可以通过右侧设置按钮打开同一个配置弹窗。

🤖

如果暂时没有特殊要求,通常只需要选择合适的 AI 模型,其他参数保持默认即可。

alt textalt textalt text

配置会不会都显示?

不会。弹窗会根据当前模型的能力显示可用配置。例如,模型不支持图片识别时,不会提供图片识别开关;模型不支持思考配置时,也不会显示对应选项。

基础配置

AI 模型

用于选择当前应用或节点使用的 AI 模型。不同模型在回答能力、价格、可处理内容长度、工具调用能力等方面会有差异。

模型下面会显示三类信息:

  • 积分价格:模型调用时的积分消耗参考,通常会区分输入内容和模型回复。
  • 最大上下文:模型单次请求可参考的内容长度。数值越大,越适合长文档、长对话等场景。
  • 工具调用:如果显示支持,说明该模型可以配合应用中选择的工具完成查询、计算或外部能力调用。

记忆轮数

控制 AI 回答时最多参考前面多少轮聊天。

数值越大,AI 越容易参考更早的对话,但也会带入更多内容,可能增加消耗并影响响应速度。数值过小,则可能无法利用前文信息。

如果没有明确需求,建议先使用默认值。客服、知识库问答类应用通常保留少量历史轮数即可。

回复上限

控制 AI 一次最多回答多长。

打开后,可以通过滑块限制模型回复长度。设置过低时,回复可能被提前截断;设置较高时,模型可以生成更完整的内容,但也可能增加消耗。

如果希望回答简短,可以适当调低;如果需要生成方案、文章或较长说明,可以适当调高。

温度

控制回答的稳定程度。

数值较低时,回答更稳定,更适合客服、知识库问答、规则明确的场景。数值较高时,回答更发散,更适合写作、头脑风暴、创意内容等场景。

常见选择:

  • 客服、知识库问答:建议偏低。
  • 文案、故事、创意建议:可以适当调高。
  • 不确定时:建议保持默认。

Top_p

Top_p 也是控制回复随机性的参数,作用和温度有一定重叠。

通常不建议同时调整温度和 Top_p。如果已经通过温度获得了期望效果,可以保持 Top_p 关闭或默认。

停止序列

当 AI 回复中出现指定内容时,会停止继续输出。

普通聊天一般不需要设置。只有在需要模型输出到某个固定标记就结束时才使用。多个停止词可以用 | 分隔,例如:结束|stop

回复格式

控制 AI 的回答格式。

普通聊天、客服问答、知识库问答通常保持默认即可。只有当后续流程需要读取固定格式的内容时,才需要修改该配置。

如果选择 json_schema,还需要填写对应的格式要求。该选项适合需要模型按固定结构返回内容的场景。

图片识别

如果模型支持图片识别,这里可以控制 AI 是否读取图片。

打开后,AI 可以读取用户上传的图片,或识别文件链接中的图片内容。例如用户上传截图、海报或表格图片时,模型可以结合图片内容进行回答。

如果弹窗里显示“该模型不支持图片识别”,需要换成支持图片识别的模型。

隐藏 AI 输出

打开后,AI 生成的内容不会直接展示给用户,但仍然可以通过 AI 回复输出交给后续节点继续处理。例如先让 AI 整理内部结果,再由下一个节点改写成最终回复。

思考配置

部分模型支持先生成思考过程,再输出最终回答。选择这类模型时,弹窗会显示思考配置。

思考配置

用于控制模型的思考强度。

  • 默认:使用模型默认配置。
  • 不思考:尽量直接回答,适合简单问题。
  • 极简思考 / 轻量思考 / 标准思考 / 深度思考 / 极致思考:问题越复杂,可以选择更高的思考强度。

思考强度配置对齐 OpenAI 规范中的 reasoning_effort,并通过 ai-proxy 适配不同模型平台的参数格式。完整规则可参考 ai-proxy reasoning compatibility

OpenAI 兼容枚举与默认 budget 映射
FastGPT 选项OpenAI 兼容值默认 budget
默认不显式传递 reasoning_effort使用模型默认值
不思考none0
极简思考minimal1024
轻量思考low2048
标准思考medium8192
深度思考high16384
极致思考xhigh32768

如果某个平台只支持 token budget,不支持离散档位,ai-proxy 会按上表把 effort 转成 budget。反向归一化时,<=0 会被视为 none1~1024 视为 minimal1025~4096 视为 low4097~12288 视为 medium12289~24576 视为 high,更高则视为 xhigh

OpenAI / OpenAI Responses
目标格式写入字段映射方式
OpenAI Chat / Completionsreasoning_effortnone/minimal/low/medium/high/xhigh 原样写入
OpenAI Responsesreasoning.effortnone/minimal/low/medium/high/xhigh 原样写入

OpenAI Chat / Completions 模式只解析 reasoning_effort。当 Gemini、Claude 等请求被转换为 OpenAI 兼容格式时,也会先归一化为该字段。

Google Gemini

Gemini 原生请求会从 generationConfig.thinkingConfig 中解析 thinkingLevelthinkingBudgetincludeThoughts。写给 Gemini 上游时,ai-proxy 会根据模型系列选择 thinkingLevelthinkingBudget

OpenAI 兼容值Gemini 3+ ProGemini 3+ 非 Progemini-2.5-progemini-2.5-flashgemini-2.5-flash-lite
nonethinkingLevel=lowthinkingLevel=minimalthinkingBudget=128thinkingBudget=0thinkingBudget=0
minimalthinkingLevel=lowthinkingLevel=minimalthinkingBudget=1024thinkingBudget=1024thinkingBudget=1024
lowthinkingLevel=lowthinkingLevel=lowthinkingBudget=2048thinkingBudget=2048thinkingBudget=2048
mediumthinkingLevel=lowthinkingLevel=mediumthinkingBudget=8192thinkingBudget=8192thinkingBudget=8192
highthinkingLevel=highthinkingLevel=highthinkingBudget=16384thinkingBudget=16384thinkingBudget=16384
xhighthinkingLevel=highthinkingLevel=highthinkingBudget=32768thinkingBudget=24576thinkingBudget=24576

Gemini 2.5 系列会按模型允许范围 clamp budget。部分 Gemini 模型不能真正关闭 thinking,none 会退化为模型允许的最小 level 或 budget。

Claude / Anthropic / Bedrock / Vertex AI

Claude 原生请求会解析 thinkingoutput_config。写给 Anthropic 官方、AWS Bedrock Claude 或 Vertex AI Claude 时,字段形态仍遵循 Claude 的 thinking 规则。

OpenAI 兼容值旧式 / budget 模式adaptive 模式
nonethinking.type=disabledthinking.type=disabled,部分 adaptive-only 模型可能移除该字段
minimalthinking.type=enabled, budget_tokens=1024thinking.type=adaptive, output_config.effort=low
lowthinking.type=enabled, budget_tokens=2048thinking.type=adaptive, output_config.effort=low
mediumthinking.type=enabled, budget_tokens=8192thinking.type=adaptive, output_config.effort=medium
highthinking.type=enabled, budget_tokens=16384thinking.type=adaptive, output_config.effort=high
xhighthinking.type=enabled, budget_tokens=32768thinking.type=adaptive, output_config.effort=max

budget 模式会保证 budget_tokens < max_tokens,并把过小的 budget 提升到上游可接受的最小值。

Ali DashScope / Qwen / QwQ / GLM / Kimi 兼容模型
OpenAI 兼容值支持 thinking_budget 的模型不支持 budget 的模型
noneenable_thinking=false,移除 thinking_budgetenable_thinking=false
minimalenable_thinking=true, thinking_budget=1024enable_thinking=true
lowenable_thinking=true, thinking_budget=2048enable_thinking=true
mediumenable_thinking=true, thinking_budget=8192enable_thinking=true
highenable_thinking=true, thinking_budget=16384enable_thinking=true
xhighenable_thinking=true, thinking_budget=32768enable_thinking=true

当前 ai-proxy 会把 qwen3-*qwq-*、模型名包含 glmkimi 的 Ali-compatible 模型视为支持 thinking_budgetqwen3-* 非流式请求会被强制关闭 thinking,qwq-* 请求会被强制改为流式。

Zhipu / DeepSeek / Doubao / Moonshot Kimi

这些平台当前主要保留开关语义,不保留 budget 或细粒度 effort。

平台OpenAI 兼容值写给上游的字段
Zhipu / DeepSeek / Doubaononethinking.type=disabled
Zhipu / DeepSeek / Doubaominimal/low/medium/high/xhighthinking.type=enabled
Moonshot / Kimi 支持开关的模型nonethinking.type=disabled,并移除 reasoning_effort
Moonshot / Kimi 支持开关的模型minimal/low/medium/high/xhighthinking.type=enabled,并移除 reasoning_effort
Moonshot / Kimi 不支持开关的模型任意值移除 reasoning_effort,不发送 thinking

Moonshot / Kimi 是否能写入 thinking.type 取决于渠道映射后的实际上游模型名。

部分模型不一定完全支持所有思考选项。如果切换后出现报错,可以改回默认选项。

隐藏 AI 思考

打开后,用户只会看到最终回答,看不到 AI 的思考过程。调试应用时,可以临时关闭该开关,观察模型的中间思考内容。