模型与定位
适合本地开发、隐私敏感业务和离线演示环境。常用于快速验证开源模型与私有知识流程。
参数速览
| 项目 | 说明 |
|---|---|
| 输入模态 | 文本为主 |
| 输出能力 | 文本生成、结构化输出(配合提示词) |
| 推理模式 | 本地推理 |
| 典型模型名 | llama3、qwen、mistral 等本地模型标签 |
| 上下文窗口 | 由模型与 num_ctx 等参数共同决定 |
常用请求参数
| 参数 | 作用 | 常见建议 |
|---|---|---|
model | 本地模型标签 | 按任务准备多模型模板 |
temperature | 随机性 | 稳定输出建议较低 |
top_p / top_k | 采样控制 | 小步调整 |
num_ctx | 上下文长度 | 与机器内存匹配 |
num_predict | 最大生成 token | 控制响应时间 |
repeat_penalty | 抑制重复 | 长输出可适度提高 |
seed | 结果复现 | 评测时固定 |
stream | 流式输出 | 终端和聊天 UI 常用 |
调用与兼容性
支持命令行与 HTTP API,并可通过 OpenAI 兼容适配接入现有应用。
版本与下线注意
本地模型升级依赖镜像和权重标签,建议固定版本并记录推理参数快照。
选型建议
若你的优先级是数据不出本地、开发速度快、运维简单,Ollama 是入门与中小规模落地的高性价比方案。