模型与定位
适合在线推理、企业 API 服务与模型性能调优场景,强调吞吐与延迟的平衡。
参数速览
| 项目 | 说明 |
|---|---|
| 输入模态 | 文本为主 |
| 输出能力 | 文本、结构化输出、函数调用(按模型) |
| 推理模式 | 高性能推理优化 |
| 典型模型名 | Fireworks 平台支持的最新开源与商用模型(以平台列表为准) |
| 上下文窗口 | 与模型版本和部署规格相关 |
常用请求参数
| 参数 | 作用 | 常见建议 |
|---|---|---|
model | 指定模型 | 通过离线评测选主模型 |
temperature | 控制创意度 | 稳定输出建议低温 |
top_p / top_k | 候选控制 | 与质量指标联动调优 |
max_tokens | 输出长度限制 | 防止长输出抖动 |
repetition_penalty | 降低重复 | 长文生成可启用 |
stream | 流式输出 | 提升交互体验 |
调用与兼容性
通常支持主流 SDK 与 REST 方式。若采用 OpenAI 兼容接口,仍需验证特有参数映射。
版本与下线注意
模型与基础设施迭代较快,建议将关键参数模板化并定期做回归基准。
选型建议
当你需要稳定在线推理能力并关注吞吐成本,Fireworks 可作为主力推理平台候选。