模型与定位
适合对延迟敏感的应用,如客服助手、语音链路后端、实时协作编辑。重点在“足够好 + 足够快”。
参数速览
| 项目 | 说明 |
|---|---|
| 输入模态 | 文本为主 |
| 输出能力 | 文本生成、工具调用(按模型能力) |
| 推理模式 | 低延迟推理优化 |
| 典型模型名 | 以平台支持模型列表为准 |
| 上下文窗口 | 依模型配置而定 |
常用请求参数
| 参数 | 作用 | 常见建议 |
|---|---|---|
model | 指定模型 | 区分实时链路与高质量链路 |
temperature | 随机性 | 实时问答建议较低 |
top_p | 核采样 | 小步调整避免漂移 |
max_tokens | 输出限制 | 保障端到端响应时间 |
stop | 截断输出 | 协议输出建议配置 |
stream | 流式返回 | 实时 UI 强烈建议开启 |
调用与兼容性
具备较好的 OpenAI 接口兼容体验,迁移存量应用时通常改动较小。
版本与下线注意
模型支持列表会变化,建议对关键模型做可用性巡检并准备备用模型。
选型建议
当业务瓶颈在响应速度时,优先尝试 Groq 路由;对于极高复杂度任务,可并行保留高质量模型作为兜底。