← 返回AI精选
模型推理平台

vLLM

vLLM 是高吞吐开源推理引擎,常用于自建 OpenAI 兼容接口以承载 Llama/Qwen 等模型。

模型与定位

适合自建模型服务、追求吞吐性能和可控成本的团队。常见用法是 vLLM + API 网关 + 业务路由。

参数速览

项目说明
输入模态以文本为主
输出能力文本、工具调用(取决于模型与协议)
推理模式高吞吐并行推理
典型模型名Llama、Qwen、Mistral 等开源模型
上下文窗口由模型与服务启动参数共同决定

常用请求参数

参数作用常见建议
model指定模型服务层固定映射,避免误用
temperature随机性控制生产默认建议低温
top_p / top_k采样策略与任务指标联动调参
max_tokens输出长度上限与超时阈值绑定
stop停止词保证协议边界
stream流式返回对话界面推荐开启
seed复现实验评测回归常用

调用与兼容性

原生支持 OpenAI 兼容服务模式,便于将第三方 SDK 无缝接入自建推理集群。

版本与下线注意

升级引擎版本可能影响吞吐与显存占用,建议在预发环境做压测后再发布。

选型建议

当你需要自建可扩展推理底座并掌控成本结构时,vLLM 是当前非常主流的工程化选择。