llama.cpp 是高性能纯 C/C++ 本地大模型推理引擎，支持 GGUF 格式模型在 CPU/GPU 上高效运行，无需依赖 Python。

产品与定位

适合在本地或服务器运行开源大模型（Llama、Qwen、Mistral 等），强调零依赖、高性能与跨平台部署。通过 GGUF 量化格式大幅降低显存占用，可在消费级硬件运行百亿参数模型。

功能速览

功能	说明
纯 C/C++ 实现	无外部依赖，适合嵌入式和精简环境
GGUF 量化	支持 Q8_0 到 Q2_K 等多种量化级别，平衡体积与质量
多后端支持	CUDA、Metal、ROCm、Vulkan、CPU
推理模式	基础生成、流式输出、对话补全、Function Calling
OpenAI 兼容	`llama-server` 提供 OpenAI Chat Completions 兼容接口

常用参数

参数	作用	常见建议
`-ngl`	GPU 层数	有独立显卡建议设高值加速
`-c` / `--ctx-size`	上下文窗口	受显存限制，建议 2048-8192
`-t` / `--threads`	CPU 线程数	对齐物理核心数效果最佳
`-mli`	强制蒙特卡洛采样	提升推理质量但增加延迟
`--temp`	温度控制	精确任务 0.0-0.3，创作 0.5-0.8
`--no-display`	纯文本输出	用于脚本和管道处理
`-fa`	Flash Attention	大上下文加速并节省显存

调用与兼容性

通过 llama-cli 交互式对话或 llama-server 启动 API 服务。llama-server 默认端口 8080，提供与 OpenAI 完全兼容的 /v1/chat/completions 等接口。

# 直接运行对话
llama-cli -hf bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0

# 启动 API 服务器
llama-server -hf ggml-org/gemma-3-1b-it-GGUF -ngl 99

# 调用兼容接口
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma-3-1b", "messages": [{"role": "user", "content": "Hello!"}]}'

版本与更新注意

项目更新频繁，GPU 支持和量化算法持续优化。建议定期拉取最新版本获取性能提升和 Bug 修复。

选型建议

需要完全离线、数据不上云、可控推理成本时首选 llama.cpp；配合 Ollama 可进一步简化模型管理和 API 封装。