start

💰 04-月费 8 美金跑 Hermes:三层模型级联省钱指南LCP

💰 04-月费 8 美金跑 Hermes:三层模型级联省钱指南 是 Hermes Agent 中文站「start、three-tier-model-routing」路径下的中文说明页,帮助你理解适用场景、关键步骤、常见坑和下一步入口,并和快速上手、现成方案、Packs、问题排查及参考手册形成完整学习链路。

最后更新:2026-06-04查看 GitHub 原文

一句话先说清楚:这一页教你用三层模型级联——日常对话用免费/超低价模型,中等任务用中端模型,只有真正复杂的活才上旗舰模型——把月费压到 8 美金左右。

三层模型级联图:低成本模型处理中低复杂度任务,中端模型处理分析,旗舰模型只处理复杂任务
三层模型级联图:低成本模型处理中低复杂度任务,中端模型处理分析,旗舰模型只处理复杂任务

👀 适合谁

  • 每月 LLM 账单超过 30 美金,想大幅压缩的人
  • 大部分对话其实不需要 GPT-4 或 Claude Sonnet 的人
  • 已经跑通 Hermes,想进一步优化成本的人

前提条件:你已经在 Hermes 里配过至少一个模型,了解 config.yaml 基本结构。


🎯 为什么值得做

很多人用 Hermes 的默认配置跑了几个月,发现账单比预期高得多。 原因不是 Hermes 贵,而是所有任务都在用最贵的模型

实际上,一个典型用户的日常任务分布大概是这样:

任务类型占比实际需要的模型
闲聊、简单问答、格式整理60-70%超低价或免费模型就够
代码片段、文档搜索、中等分析20-25%中端模型
复杂推理、长文生成、深度调试5-15%旗舰模型

如果你让 100% 的请求都走旗舰模型,你就在为 70% 的简单任务多付 10-40 倍的钱。


✍️ 操作步骤:三层模型级联方案

第 1 层:日常对话——免费或超低价

推荐模型

模型价格适用场景
Xiaomi MiMo v2 Pro(Nous Portal 免费层)$0日常聊天、内容起草、研究辅助
Qwen 2.5-7B-Instruct(OpenRouter)~$0.07/百万 input token编码辅助、简单分析
DeepSeek V3(OpenRouter)~$0.14/百万 input token有时比 Qwen 更擅长推理

配置

# 设置默认模型为最低成本
hermes config set model.default openrouter:qwen/qwen-2.5-7b-instruct

或者使用 Nous Portal 免费层:

hermes model
# 选择 nous-portal → mimo-v2-pro

Nous Portal 免费层是按速率限制的(不是按金额),适合个人日常使用。

第 2 层:中等任务——中端模型

当任务需要更强的推理或代码能力时,手动切换或通过 Skill 指定:

hermes config set model.medium openrouter:deepseek/deepseek-chat

在 Skill 的 frontmatter 里指定:

---
name: code-review-helper
model: medium
---

第 3 层:重型任务——旗舰模型

只用于真正需要强推理、长上下文、复杂工具调用的场景:

hermes config set model.heavy openrouter:anthropic/claude-3.5-sonnet

在 Skill 里指定:

---
name: complex-debugging
model: heavy
---

三层总览

层级用途模型示例单价占比
default日常对话Qwen 2.5-7B / MiMo v2 Pro$0 - $0.07/M~70%
medium中等任务DeepSeek V3~$0.14/M~20%
heavy旗舰出马Claude 3.5 Sonnet~$3/M~10%

按这个比例,一个月正常使用的总账单大约 $5-12,中位数 $8 左右。


🔧 Provider Routing:让 OpenRouter 帮你选最便宜的

如果你用 OpenRouter,还可以开启 Provider Routing 自动选最便宜的供应商:

# ~/.hermes/config.yaml
provider_routing:
  sort: "price"           # 优先选最便宜的供应商
  ignore: ["Together"]    # 排除不信任的供应商
  require_parameters: true # 确保参数不被静默丢弃
  data_collection: "deny"  # 禁止供应商用你的数据训练

这样即使你指定了 Claude 3.5 Sonnet,OpenRouter 也会在所有提供这个模型的供应商里选最便宜的那个。


💡 使用心得

心得 1:先从 default 开始省钱

大部分人的账单里,70% 以上都是日常对话。 先把 model.default 切到 Qwen 2.5-7B 或 MiMo,立刻就能砍掉一半费用。

心得 2:A/B 测试

别凭感觉选模型。用同一个 prompt 分别跑 Qwen、DeepSeek、Claude,对比输出质量。 你会发现很多任务 Qwen 和 DeepSeek 已经够好了。

心得 3:用 /model 临时切换

在 Telegram 或 CLI 里,可以用 /model 临时切换到更强的模型处理当前任务,处理完再切回去。 不需要为了一次复杂任务把 default 改成旗舰。


⚠️ 踩坑提醒

1. 廉价模型不支持 tool use

一些超低价模型可能不支持 function calling / tool use。 如果你发现 Hermes 的工具不工作,可能就是模型不支持。 检查方式:换回中端模型试一下。

2. Provider Routing 只在 OpenRouter 有效

如果你直连 Anthropic API 或 Google API,provider_routing 配置不会有任何效果。 它只在通过 OpenRouter 路由时生效。

3. 免费层有速率限制

Nous Portal 的 MiMo v2 Pro 免费层是按请求频率限制的。 高频使用时可能被限速。如果遇到 429 错误,等几分钟再试。

4. 不要只看 input token 价格

有些模型 input 便宜但 output 贵。 比较成本时,按你的典型 input/output 比例(通常 3:1 到 5:1)算总成本。


✅ 推荐做法

做法预期节省
default 切到 Qwen 2.5-7B 或 MiMo砍掉 50-70% 费用
Skill 里按任务指定 medium / heavy避免一刀切
开启 provider_routing: sort: price同模型自动选最便宜供应商
设置 data_collection: deny保护隐私
每月检查一次 OpenRouter 用量面板发现异常消耗

✅ 过关标准

  • default 模型已切到低成本选项
  • 至少有一个 Skill 指定了 model: mediummodel: heavy
  • 月账单降到 $15 以下
  • 你知道怎么用 /model 临时切换

❓ FAQ:auxiliary 副模型与三层模型路由

Q1|Hermes 的 auxiliary_client / 副模型是什么?和 default 模型有什么区别?

速答auxiliary_client 是 Hermes 内部的"副模型"概念,专门处理主模型(default)不适合或太贵的辅助任务。三层模型路由里说的"三层",本质就是 default 主模型 + auxiliary 副模型的几个槽位 + /model 临时切换。

Hermes 内部有 3 个辅助槽位:

槽位默认模型触发场景配置入口
Title Generationgoogle/gemini-3-flash-preview给会话起标题hermes model → Configure auxiliary
Vision / Image取决于你的 default处理图片输入hermes model → Configure auxiliary
Web Search取决于你的 default工具调用 web_searchhermes model → Configure auxiliary

如果你不显式配置,Hermes 会用 default 模型处理一切——这正是大多数用户账单偏高的根本原因。

怎么配

hermes model
# 选 "Configure auxiliary client"
# 分别给 Title Gen / Vision / Web Search 槽位指定更便宜的模型

举例(实际省钱配置):

  • Title Gen → qwen-2.5-7b-instruct(几乎免费)
  • Vision → google/gemini-3-flash-preview(视觉便宜且质量够用)
  • Web Search → 保持 default(搜索结果分析需要中等推理能力)

和 default 模型的关系

  • 你日常聊天、复杂推理、代码生成 → default 模型
  • 后台跑的小任务(起标题、识图、读搜索结果)→ auxiliary 副模型
  • 你想临时上一把旗舰 → /model 切换,不修改 default

来源:官方文档 — Configuring Models;社区推文 x.com/Lonely__MH — auxiliary 配置实测


Q2|"三层模型路由"和 auxiliary_client 是同一个东西吗?

速答:不是,但密切相关。"三层模型路由"是这篇文章里描述的省钱策略(低/中/高三档 default + Skill 指定 + /model 临时切);auxiliary_client 是 Hermes 内部用来处理辅助任务(起标题、识图、读搜索结果)的副模型机制。两者一起用,效果最好。

两者职责对比

维度三层模型路由(本文主题)auxiliary_client 副模型
处理什么主对话、复杂任务起标题、识图、读搜索结果
谁在用你能感知到的所有对话Hermes 后台自动调用
怎么改hermes model 改 default;Skill 里指定 modelhermes model → Configure auxiliary
省钱效果砍掉 50-70% 主对话费用再砍 10-20% 辅助任务费用

推荐组合

  • default 切到 Qwen 2.5-7B 或 MiMo → 砍主对话
  • auxiliary Title Gen 切到最便宜模型 → 砍标题生成
  • auxiliary Vision 切到 Gemini Flash → 砍图片识别
  • /model 临时切到旗舰 → 仅用于复杂推理

加起来比"全走 Claude Sonnet" 省 80% 以上。

来源:本文 + 官方 Configuring Models


➡️ 下一步

完成后进入: 05-Token 成本优化避坑指南

如果你想先回到上一阶段入口重新确认位置: 05-实战应用总览


📖 出处

本文整理翻译自以下来源: