← 返回AI精选
模型推理平台

GroqCloud

GroqCloud 提供低延迟推理服务,主打实时对话与高吞吐 API 场景。

模型与定位

适合对延迟敏感的应用,如客服助手、语音链路后端、实时协作编辑。重点在“足够好 + 足够快”。

参数速览

项目说明
输入模态文本为主
输出能力文本生成、工具调用(按模型能力)
推理模式低延迟推理优化
典型模型名以平台支持模型列表为准
上下文窗口依模型配置而定

常用请求参数

参数作用常见建议
model指定模型区分实时链路与高质量链路
temperature随机性实时问答建议较低
top_p核采样小步调整避免漂移
max_tokens输出限制保障端到端响应时间
stop截断输出协议输出建议配置
stream流式返回实时 UI 强烈建议开启

调用与兼容性

具备较好的 OpenAI 接口兼容体验,迁移存量应用时通常改动较小。

版本与下线注意

模型支持列表会变化,建议对关键模型做可用性巡检并准备备用模型。

选型建议

当业务瓶颈在响应速度时,优先尝试 Groq 路由;对于极高复杂度任务,可并行保留高质量模型作为兜底。