← 返回AI精选

模型推理平台

Ollama

Ollama 是本地大模型运行与服务工具，支持离线部署、OpenAI 兼容调用和模型快速切换。

2026-04-27

↗ 访问工具 📖 教程文章

模型与定位

适合本地开发、隐私敏感业务和离线演示环境。常用于快速验证开源模型与私有知识流程。

参数速览

项目	说明
输入模态	文本为主
输出能力	文本生成、结构化输出（配合提示词）
推理模式	本地推理
典型模型名	`llama3`、`qwen`、`mistral` 等本地模型标签
上下文窗口	由模型与 `num_ctx` 等参数共同决定

常用请求参数

参数	作用	常见建议
`model`	本地模型标签	按任务准备多模型模板
`temperature`	随机性	稳定输出建议较低
`top_p` / `top_k`	采样控制	小步调整
`num_ctx`	上下文长度	与机器内存匹配
`num_predict`	最大生成 token	控制响应时间
`repeat_penalty`	抑制重复	长输出可适度提高
`seed`	结果复现	评测时固定
`stream`	流式输出	终端和聊天 UI 常用

调用与兼容性

支持命令行与 HTTP API，并可通过 OpenAI 兼容适配接入现有应用。

版本与下线注意

本地模型升级依赖镜像和权重标签，建议固定版本并记录推理参数快照。

选型建议

若你的优先级是数据不出本地、开发速度快、运维简单，Ollama 是入门与中小规模落地的高性价比方案。