模型与定位
适用于私有化场景、成本敏感场景和可控定制场景。可通过 vLLM、TGI、SGLang、Ollama 等方式部署。
参数速览
| 项目 | 说明 |
|---|---|
| 输入模态 | 以文本为主,部分版本支持多模态 |
| 输出能力 | 文本生成、结构化输出(由推理服务控制) |
| 推理模式 | 标准解码 + 第三方推理优化 |
| 典型模型名 | Llama-4-8B-Instruct、Llama-4-70B-Instruct |
| 上下文窗口 | 取决于具体权重版本与推理引擎配置 |
常用请求参数
| 参数 | 作用 | 常见建议 |
|---|---|---|
temperature | 随机性控制 | 问答任务 0.2-0.6 |
top_p / top_k | 候选采样 | 先调 temperature 再调采样 |
max_tokens / max_new_tokens | 输出长度上限 | 避免长尾超时 |
repetition_penalty | 抑制重复 | 长文生成可适度提高 |
stop | 停止词 | 协议化输出必须配置 |
seed | 复现实验 | 评测与回归时固定 |
num_ctx | 上下文窗口(部署参数) | 结合显存和延迟平衡 |
调用与兼容性
常通过 OpenAI 兼容层提供调用接口。参数名称在不同推理框架会有差异,建议统一网关字段做抽象。
版本与下线注意
开源模型迭代快,建议锁定模型哈希或镜像标签,避免无感升级导致效果漂移。
选型建议
若你需要可离线、可审计、可定制的模型能力,Llama 是主流基线;复杂任务可结合 MoE 或更大参数模型做路由。