Llama 是 Meta 发布的开源权重模型家族，适合私有化部署、定制微调与多框架推理。

模型与定位

适用于私有化场景、成本敏感场景和可控定制场景。可通过 vLLM、TGI、SGLang、Ollama 等方式部署。

参数速览

项目	说明
输入模态	以文本为主，部分版本支持多模态
输出能力	文本生成、结构化输出（由推理服务控制）
推理模式	标准解码 + 第三方推理优化
典型模型名	`Llama-4-8B-Instruct`、`Llama-4-70B-Instruct`
上下文窗口	取决于具体权重版本与推理引擎配置

常通过 OpenAI 兼容层提供调用接口。参数名称在不同推理框架会有差异，建议统一网关字段做抽象。

开源模型迭代快，建议锁定模型哈希或镜像标签，避免无感升级导致效果漂移。

若你需要可离线、可审计、可定制的模型能力，Llama 是主流基线；复杂任务可结合 MoE 或更大参数模型做路由。