start

💰 04-月费 8 美金跑 Hermes：三层模型级联省钱指南LCP

💰 04-月费 8 美金跑 Hermes：三层模型级联省钱指南是 Hermes Agent 中文站「start、three-tier-model-routing」路径下的中文说明页，帮助你理解适用场景、关键步骤、常见坑和下一步入口，并和快速上手、现成方案、Packs、问题排查及参考手册形成完整学习链路。

最后更新：2026-06-04查看 GitHub 原文

一句话先说清楚：这一页教你用三层模型级联——日常对话用免费/超低价模型，中等任务用中端模型，只有真正复杂的活才上旗舰模型——把月费压到 8 美金左右。

三层模型级联图：低成本模型处理中低复杂度任务，中端模型处理分析，旗舰模型只处理复杂任务

👀 适合谁

每月 LLM 账单超过 30 美金，想大幅压缩的人
大部分对话其实不需要 GPT-4 或 Claude Sonnet 的人
已经跑通 Hermes，想进一步优化成本的人

前提条件：你已经在 Hermes 里配过至少一个模型，了解 config.yaml 基本结构。

🎯 为什么值得做

很多人用 Hermes 的默认配置跑了几个月，发现账单比预期高得多。原因不是 Hermes 贵，而是所有任务都在用最贵的模型。

实际上，一个典型用户的日常任务分布大概是这样：

任务类型	占比	实际需要的模型
闲聊、简单问答、格式整理	60-70%	超低价或免费模型就够
代码片段、文档搜索、中等分析	20-25%	中端模型
复杂推理、长文生成、深度调试	5-15%	旗舰模型

如果你让 100% 的请求都走旗舰模型，你就在为 70% 的简单任务多付 10-40 倍的钱。

✍️ 操作步骤：三层模型级联方案

第 1 层：日常对话——免费或超低价

推荐模型：

模型	价格	适用场景
Xiaomi MiMo v2 Pro（Nous Portal 免费层）	$0	日常聊天、内容起草、研究辅助
Qwen 2.5-7B-Instruct（OpenRouter）	~$0.07/百万 input token	编码辅助、简单分析
DeepSeek V3（OpenRouter）	~$0.14/百万 input token	有时比 Qwen 更擅长推理

配置：

# 设置默认模型为最低成本
hermes config set model.default openrouter:qwen/qwen-2.5-7b-instruct

或者使用 Nous Portal 免费层：

hermes model
# 选择 nous-portal → mimo-v2-pro

Nous Portal 免费层是按速率限制的（不是按金额），适合个人日常使用。

第 2 层：中等任务——中端模型

当任务需要更强的推理或代码能力时，手动切换或通过 Skill 指定：

hermes config set model.medium openrouter:deepseek/deepseek-chat

在 Skill 的 frontmatter 里指定：

---
name: code-review-helper
model: medium
---

第 3 层：重型任务——旗舰模型

只用于真正需要强推理、长上下文、复杂工具调用的场景：

hermes config set model.heavy openrouter:anthropic/claude-3.5-sonnet

在 Skill 里指定：

---
name: complex-debugging
model: heavy
---

三层总览

层级	用途	模型示例	单价	占比
default	日常对话	Qwen 2.5-7B / MiMo v2 Pro	$0 - $0.07/M	~70%
medium	中等任务	DeepSeek V3	~$0.14/M	~20%
heavy	旗舰出马	Claude 3.5 Sonnet	~$3/M	~10%

按这个比例，一个月正常使用的总账单大约 $5-12，中位数 $8 左右。

🔧 Provider Routing：让 OpenRouter 帮你选最便宜的

如果你用 OpenRouter，还可以开启 Provider Routing 自动选最便宜的供应商：

# ~/.hermes/config.yaml
provider_routing:
  sort: "price"           # 优先选最便宜的供应商
  ignore: ["Together"]    # 排除不信任的供应商
  require_parameters: true # 确保参数不被静默丢弃
  data_collection: "deny"  # 禁止供应商用你的数据训练

这样即使你指定了 Claude 3.5 Sonnet，OpenRouter 也会在所有提供这个模型的供应商里选最便宜的那个。

💡 使用心得

心得 1：先从 default 开始省钱

大部分人的账单里，70% 以上都是日常对话。先把 model.default 切到 Qwen 2.5-7B 或 MiMo，立刻就能砍掉一半费用。

心得 2：A/B 测试

别凭感觉选模型。用同一个 prompt 分别跑 Qwen、DeepSeek、Claude，对比输出质量。你会发现很多任务 Qwen 和 DeepSeek 已经够好了。

心得 3：用 `/model` 临时切换

在 Telegram 或 CLI 里，可以用 /model 临时切换到更强的模型处理当前任务，处理完再切回去。不需要为了一次复杂任务把 default 改成旗舰。

⚠️ 踩坑提醒

1. 廉价模型不支持 tool use

一些超低价模型可能不支持 function calling / tool use。如果你发现 Hermes 的工具不工作，可能就是模型不支持。检查方式：换回中端模型试一下。

2. Provider Routing 只在 OpenRouter 有效

如果你直连 Anthropic API 或 Google API，provider_routing 配置不会有任何效果。它只在通过 OpenRouter 路由时生效。

3. 免费层有速率限制

Nous Portal 的 MiMo v2 Pro 免费层是按请求频率限制的。高频使用时可能被限速。如果遇到 429 错误，等几分钟再试。

4. 不要只看 input token 价格

有些模型 input 便宜但 output 贵。比较成本时，按你的典型 input/output 比例（通常 3:1 到 5:1）算总成本。

✅ 推荐做法

做法	预期节省
default 切到 Qwen 2.5-7B 或 MiMo	砍掉 50-70% 费用
Skill 里按任务指定 medium / heavy	避免一刀切
开启 `provider_routing: sort: price`	同模型自动选最便宜供应商
设置 `data_collection: deny`	保护隐私
每月检查一次 OpenRouter 用量面板	发现异常消耗

✅ 过关标准

default 模型已切到低成本选项
至少有一个 Skill 指定了 model: medium 或 model: heavy
月账单降到 $15 以下
你知道怎么用 /model 临时切换

❓ FAQ：auxiliary 副模型与三层模型路由

Q1｜Hermes 的 `auxiliary_client` / 副模型是什么？和 default 模型有什么区别？

速答：auxiliary_client 是 Hermes 内部的"副模型"概念，专门处理主模型（default）不适合或太贵的辅助任务。三层模型路由里说的"三层"，本质就是 default 主模型 + auxiliary 副模型的几个槽位 + /model 临时切换。

Hermes 内部有 3 个辅助槽位：

槽位	默认模型	触发场景	配置入口
Title Generation	`google/gemini-3-flash-preview`	给会话起标题	`hermes model` → Configure auxiliary
Vision / Image	取决于你的 default	处理图片输入	`hermes model` → Configure auxiliary
Web Search	取决于你的 default	工具调用 web_search	`hermes model` → Configure auxiliary

如果你不显式配置，Hermes 会用 default 模型处理一切——这正是大多数用户账单偏高的根本原因。

怎么配：

hermes model
# 选 "Configure auxiliary client"
# 分别给 Title Gen / Vision / Web Search 槽位指定更便宜的模型

举例（实际省钱配置）：

Title Gen → qwen-2.5-7b-instruct（几乎免费）
Vision → google/gemini-3-flash-preview（视觉便宜且质量够用）
Web Search → 保持 default（搜索结果分析需要中等推理能力）

和 default 模型的关系：

你日常聊天、复杂推理、代码生成 → default 模型
后台跑的小任务（起标题、识图、读搜索结果）→ auxiliary 副模型
你想临时上一把旗舰 → /model 切换，不修改 default

来源：官方文档 — Configuring Models；社区推文 x.com/Lonely__MH — auxiliary 配置实测。

Q2｜"三层模型路由"和 `auxiliary_client` 是同一个东西吗？

速答：不是，但密切相关。"三层模型路由"是这篇文章里描述的省钱策略（低/中/高三档 default + Skill 指定 + /model 临时切）；auxiliary_client 是 Hermes 内部用来处理辅助任务（起标题、识图、读搜索结果）的副模型机制。两者一起用，效果最好。

两者职责对比：

维度	三层模型路由（本文主题）	auxiliary_client 副模型
处理什么	主对话、复杂任务	起标题、识图、读搜索结果
谁在用	你能感知到的所有对话	Hermes 后台自动调用
怎么改	`hermes model` 改 default；Skill 里指定 model	`hermes model` → Configure auxiliary
省钱效果	砍掉 50-70% 主对话费用	再砍 10-20% 辅助任务费用

推荐组合：

default 切到 Qwen 2.5-7B 或 MiMo → 砍主对话
auxiliary Title Gen 切到最便宜模型 → 砍标题生成
auxiliary Vision 切到 Gemini Flash → 砍图片识别
/model 临时切到旗舰 → 仅用于复杂推理

加起来比"全走 Claude Sonnet" 省 80% 以上。

来源：本文 + 官方 Configuring Models。

➡️ 下一步

完成后进入： 05-Token 成本优化避坑指南

如果你想先回到上一阶段入口重新确认位置： 05-实战应用总览

📖 出处

本文整理翻译自以下来源：

Hermes 官方文档 — Provider Routing
OpenRouter 官方文档 — Models and Pricing

🔄 03-GitHub 备份 Cron Job

用 Hermes Cron 自动备份 SOUL、memory、skills 等核心资产到 GitHub。

🧮 05-Token 成本优化避坑指南

从工具表面、Skill 加载和上下文堆叠三层减少 Token 固定成本。