← 返回AI精选
大语言模型

Meta Llama

Llama 是 Meta 发布的开源权重模型家族,适合私有化部署、定制微调与多框架推理。

模型与定位

适用于私有化场景、成本敏感场景和可控定制场景。可通过 vLLM、TGI、SGLang、Ollama 等方式部署。

参数速览

项目说明
输入模态以文本为主,部分版本支持多模态
输出能力文本生成、结构化输出(由推理服务控制)
推理模式标准解码 + 第三方推理优化
典型模型名Llama-4-8B-InstructLlama-4-70B-Instruct
上下文窗口取决于具体权重版本与推理引擎配置

常用请求参数

参数作用常见建议
temperature随机性控制问答任务 0.2-0.6
top_p / top_k候选采样先调 temperature 再调采样
max_tokens / max_new_tokens输出长度上限避免长尾超时
repetition_penalty抑制重复长文生成可适度提高
stop停止词协议化输出必须配置
seed复现实验评测与回归时固定
num_ctx上下文窗口(部署参数)结合显存和延迟平衡

调用与兼容性

常通过 OpenAI 兼容层提供调用接口。参数名称在不同推理框架会有差异,建议统一网关字段做抽象。

版本与下线注意

开源模型迭代快,建议锁定模型哈希或镜像标签,避免无感升级导致效果漂移。

选型建议

若你需要可离线、可审计、可定制的模型能力,Llama 是主流基线;复杂任务可结合 MoE 或更大参数模型做路由。