GroqCloud 提供低延迟推理服务，主打实时对话与高吞吐 API 场景。

模型与定位

适合对延迟敏感的应用，如客服助手、语音链路后端、实时协作编辑。重点在“足够好 + 足够快”。

参数速览

具备较好的 OpenAI 接口兼容体验，迁移存量应用时通常改动较小。

模型支持列表会变化，建议对关键模型做可用性巡检并准备备用模型。

当业务瓶颈在响应速度时，优先尝试 Groq 路由；对于极高复杂度任务，可并行保留高质量模型作为兜底。