start

🦙 13-Ollama 本地模型：让 Hermes 完全免费跑起来LCP

🦙 13-Ollama 本地模型：让 Hermes 完全免费跑起来是 Hermes Agent 中文站「start、ollama-local-model」路径下的中文说明页，帮助你理解适用场景、关键步骤、常见坑和下一步入口，并和快速上手、现成方案、Packs、问题排查及参考手册形成完整学习链路。

最后更新：2026-06-05查看 GitHub 原文

💡 速答：Hermes Agent 接入 Ollama 只需两步——装 Ollama 并拉模型 → 在 Hermes 用 hermes model 选 Ollama provider，base_url 填 http://127.0.0.1:11434/v1。最低 8 GB 显存可跑 Qwen2.5-7B，零账单零数据出网。适合日常轻量任务，复杂推理仍建议走云端模型。

一句话先说清楚：这一页讲的是怎么让 Hermes 接入 Ollama 作为推理后端，跑在自家显卡上——零账单、零数据出网、零外部 API 依赖。但更重要的是讲清楚"什么时候值得用，什么时候会反过来拖累你"。

和 21-Hermes Agent + Ollama 最快路径的边界：

这一页 = 原理篇：三层路由、显存边界、混搭策略、隐私边界、何时退回云端
21-Hermes Agent + Ollama：本地部署最快路径 = 速通篇：5 分钟从 0 到第一次本地对话
建议：先读这一页理解边界 → 再用 21 跑通 → 跑一周后回来调优

Hermes Agent 接入 Ollama 三层决策树：本地零账单推理路径、显存与速度边界、隐私 vs 工具上云的真实区分、三层路由（本地兜底 + 云端高难度 + 强模型专用）

👀 适合谁

有空闲显卡（≥8 GB 显存），想让 Hermes 跑日常任务不再烧云端 Token
关心数据隐私，不想把公司代码或客户对话发给 OpenAI / Anthropic
想做一套"本地兜底 + 云端高难度"的混合模型路由
已经在玩 Ollama，想把它接到 Hermes 上做真正的 Agent 工作

前提条件：

Hermes 已经能正常用云端模型对话
你大致清楚自己机器的显存大小
知道 04-月费 8 美金三层模型级联省钱指南的三层路由思路

不适合谁：

显卡只有 4 GB 显存（最小可用模型也吃力）
完全没有 GPU（CPU 推理 Qwen2.5-7B 都要 30 秒/回复，没意义）
想要"完全免费跑得跟 Claude 一样快"——这种好事不存在

🎯 为什么值得做（以及边界在哪）

先把丑话说清楚：本地模型 ≠ 云端模型的免费替代。它是一个有清晰边界的能力。

维度	云端模型（Claude、GPT、GLM）	本地模型（Ollama 跑 Qwen、Llama）
单次成本	按 Token 计费	零账单
响应速度	1-3 秒首 Token	看 GPU，10-50 Token/s
上下文窗口	200K+	8K-32K 居多
工具调用	稳定	需要选对模型，且容易出错
视觉理解	顶级模型原生支持	多模态本地模型极少
数据出网	是	否
可用性	看 API 状态	显卡在你机器上，永远可用
复杂推理	强	弱（参数量限制）

结论：本地模型适合"低频/隐私/兜底"场景，不适合做主力 Agent 引擎。

具体怎么用，看下一节的实操边界。

🧭 实操边界：什么场景用什么

✅ 适合本地模型

场景	为什么合适	推荐模型
总结、改写、翻译	简单文本任务，7B 模型够用	`qwen2.5:7b`、`llama3.1:8b`
离线代码补全	不出网、低延迟	`qwen2.5-coder:7b`
隐私文档问答	数据不出机器	`qwen2.5:14b`（需 16GB 显存）
Cron 跑"是否要继续"的判断	不需要复杂推理	`qwen2.5:3b`（轻量）
开发/调试 prompt	烧的是电费不是 Token	任意
SOUL 人格对话	风格化任务，本地模型够	`qwen2.5:7b`

❌ 不适合本地模型

场景	为什么不行
复杂工具调用链（多 Agent 编排）	工具调用准确率低，容易卡在循环里
长文档总结（>32K 输入）	上下文窗口不够
视觉理解（截图分析、PDF 解析）	本地多模态模型效果差
复杂代码重构	弱模型会改坏
Web Search 后的多源信息综合	推理能力不够

实操建议：把本地模型放在三层路由的"日常层"，复杂任务路由到云端。

✍️ 操作步骤：把 Ollama 接到 Hermes

第 1 步：装 Ollama 并拉模型

# 一键安装（Linux/macOS）
curl -fsSL https://ollama.com/install.sh | sh

# 拉一个 7B 模型（Qwen2.5 中文不错，~5GB 下载）
ollama pull qwen2.5:7b

# 试一下能不能跑
ollama run qwen2.5:7b "你好，请用一句话介绍你自己"

确认模型能正常出字。Ollama 默认监听 127.0.0.1:11434。

第 2 步：把 Ollama 注册成 Hermes 的 Provider

方式 A：用 hermes model（推荐）

hermes model
# 选 "Ollama Cloud"（云托管版）或 "LM Studio / Ollama"（本地）
# 输入 base_url: http://127.0.0.1:11434/v1
# 不需要 API Key

方式 B：手动改 config.yaml

model:
  default: qwen2.5:7b
  provider: ollama
  base_url: http://127.0.0.1:11434/v1
  api_key: "ollama"   # 占位符，Ollama 不校验

第 3 步：验证连通性

hermes chat -q "用中文介绍一下你自己" -m qwen2.5:7b --provider ollama

如果 5-10 秒内开始出字、30 秒内出完，说明本地推理跑通了。

第 4 步：把它加进三层路由（关键一步）

参考 04-月费 8 美金三层模型级联省钱指南，把 Ollama 设为"日常任务"层：

routing:
  tiers:
    - name: 日常-本地
      provider: ollama
      model: qwen2.5:7b
      use_for: [translation, summary, formatting]
    
    - name: 分析-云端
      provider: openrouter
      model: anthropic/claude-haiku-4
      use_for: [research, code_review]
    
    - name: 复杂-云端
      provider: anthropic
      model: claude-sonnet-4
      use_for: [complex_reasoning, long_context]

让简单任务自动走本地、零成本。

🔧 性能调优（N 卡用户）

Ollama 默认会用 CUDA（如果有）。可以调的几个参数：

1. 指定 GPU

CUDA_VISIBLE_DEVICES=0 ollama serve

2. 调整上下文长度（默认 2048 太短）

启动 Ollama 时改：

OLLAMA_NUM_PARALLEL=2 OLLAMA_MAX_LOADED_MODELS=2 ollama serve

或者在跑模型时指定：

ollama run qwen2.5:7b --ctx-size 8192

3. 量化版本

显存吃紧的话，用量化版本：

ollama pull qwen2.5:7b-instruct-q4_K_M

4-bit 量化把显存从 ~6GB 压到 ~4GB，准确度损失约 2-5%。

💡 使用心得

心得 1：本地模型 + 工具调用 = 容易翻车

7B-14B 本地模型在工具调用（function call）上准确率明显低于 Claude Sonnet / GPT-4o。如果某个工具调用任务频繁失败，先试试把它切到云端模型。

# 临时切云端
/model anthropic/claude-sonnet-4

心得 2：长上下文的代价是显存

Qwen2.5-7B 用 32K 上下文，显存占用从 6GB 涨到 10GB+。不是显存够就能开很大，要看 token-per-second 还能不能接受。

心得 3：Cron 任务跑本地模型最香

Cron 任务多在凌晨跑，不抢你的工作时段显卡。把每天早上的新闻摘要、周报生成、文件整理这种"简单但重复"的任务跑在本地 Ollama 上，能省 80% 的 Token 账单。

心得 4：用 [SILENT] 抑制空跑

参考 01-用 Hermes 做每日晨间简报的 [SILENT] 技巧，让本地模型先判断"今天有没有值得报的事"，没有就直接退出。

心得 5：远端访问 Ollama 需要 SSH 隧道

Ollama 默认绑 127.0.0.1，外部访问需要：

# 启动时绑定 0.0.0.0
OLLAMA_HOST=0.0.0.0:11434 ollama serve

# 或者 SSH 隧道（更安全）
ssh -N -L 11434:127.0.0.1:11434 user@your-gpu-server

⚠️ 踩坑提醒

1. 显存不够模型自动卸载

Ollama 显存不够时会回退到 CPU 推理，速度直接掉到 1-2 Token/s。看日志确认：

ollama ps
# 看是 GPU 还是 CPU

2. 模型名带 tag 不一致

qwen2.5:7b 和 qwen2.5:7b-instruct-q4_K_M 是不同模型。在 Hermes config 里写的模型名必须和 ollama list 里显示的完全一致。

3. Ollama 服务没启动就跑 Hermes

systemctl status ollama   # 看服务
ollama serve              # 手动启动（调试用）

4. 工具调用陷入死循环

7B 模型有时候会反复调同一个工具。在 SOUL.md 里加一条规则：

如果同一个工具连续调用超过 3 次还没拿到结果，直接告诉我"工具调用失败"，不要再试。

5. base_url 写错

Hermes 的 model.base_url 是 OpenAI 兼容端点，Ollama 是 /v1 结尾：

# 对
base_url: http://127.0.0.1:11434/v1

# 错（少 /v1）
base_url: http://127.0.0.1:11434

6. 用本地模型跑视觉任务

Qwen2.5-VL 这种多模态本地模型在 Ollama 里效果比云端 GPT-4o 差一截。需要看图分析的任务还是建议走云端。

✅ 推荐做法

做法	原因
用 7B 起步，跑通再考虑 14B	7B 显存友好，验证流程够用
本地只做轻量任务	工具调用复杂场景留给云端
把它配进三层路由的"日常层"	真正省钱的关键
量化模型先试	4-bit 损失小但显存省一半
Cron 任务优先跑本地	凌晨不抢你工作时间
长上下文任务留云端	32K 上下文的本地推理会很慢

✅ 过关标准

当你满足以下状态，这篇就算跑通了：

Ollama 跑起来了，能用 ollama run 直接对话
Hermes 能切到 Ollama Provider 完成简单任务（比如翻译一段文字）
三层路由配置里，至少有一种任务被路由到 Ollama
你清楚知道哪些任务不该跑在本地（视觉、长上下文、复杂工具链）

➡️ 下一步

完成后进入： 14-GitHub PR 自动审查：给仓库配一个不睡觉的 Code Reviewer

如果你想先回到上一阶段入口重新确认位置： 05-实战应用总览

📖 出处

本文基于以下来源做了原创中文整理：

Hermes 官方文档 — AI Providers: Ollama / LM Studio
Ollama 官方文档 — ollama.com
QwenLM 官方 — Qwen2.5 模型卡
Hermes 实战 04-三层模型级联省钱指南

🔌 12-MCP 接入指南：给 Hermes 装上"万能插头"

用 MCP 协议让 Hermes 直接调用 GitHub、Linear、数据库等外部工具，不用自己写 wrapper。

🔍 14-GitHub PR 自动审查：给仓库配一个不睡觉的 Code Reviewer

用 Webhook + Hermes Skill 搭一条 PR 打开就自动审查 + 评论的流水线，比手动 /review 更持续更一致。