模型与定位
适合自建模型服务、追求吞吐性能和可控成本的团队。常见用法是 vLLM + API 网关 + 业务路由。
参数速览
| 项目 | 说明 |
|---|---|
| 输入模态 | 以文本为主 |
| 输出能力 | 文本、工具调用(取决于模型与协议) |
| 推理模式 | 高吞吐并行推理 |
| 典型模型名 | Llama、Qwen、Mistral 等开源模型 |
| 上下文窗口 | 由模型与服务启动参数共同决定 |
常用请求参数
| 参数 | 作用 | 常见建议 |
|---|---|---|
model | 指定模型 | 服务层固定映射,避免误用 |
temperature | 随机性控制 | 生产默认建议低温 |
top_p / top_k | 采样策略 | 与任务指标联动调参 |
max_tokens | 输出长度上限 | 与超时阈值绑定 |
stop | 停止词 | 保证协议边界 |
stream | 流式返回 | 对话界面推荐开启 |
seed | 复现实验 | 评测回归常用 |
调用与兼容性
原生支持 OpenAI 兼容服务模式,便于将第三方 SDK 无缝接入自建推理集群。
版本与下线注意
升级引擎版本可能影响吞吐与显存占用,建议在预发环境做压测后再发布。
选型建议
当你需要自建可扩展推理底座并掌控成本结构时,vLLM 是当前非常主流的工程化选择。