9.6 KiB
前言
OpenClaw原生方案/Jina / TinySearch 测试结果
已获取足够信息,下面是总结: Tavily vs Jina Reader API 对比 Jina Reader 优点:
- 极简使用:只需在 URL 前加 r.jina.ai/ 即可获取干净 Markdown
- 提供搜索端点(s.jina.ai)和事实验证端点(g.jina.ai)
- 免费额度可用,上手零门槛
- 输出 LLM 友好的 Markdown,适合快速内容提取 缺点:
- 只能处理单页,无法爬取整站
- 输出为原始 Markdown,无结构化 JSON 提取
- 无 schema 验证 / 类型安全
- 免费层有速率限制,付费定价不够透明
- 缺少 LangChain 等 AI Agent 框架的原生集成
Tavily 优点:
- 专为 AI/RAG 场景设计的搜索 API,返回带来源引用的结果
- 与 LangChain、LlamaIndex 等框架原生集成
- 结果包含摘要和来源 URL,适合需要 citation 的场景
- 搜索质量针对 AI Agent 优化 缺点:
- 侧重"搜索发现",不擅长深度网页内容提取
- 不提供将网页转为干净 Markdown 的能力(需配合其他工具)
- 免费额度有限,重度使用成本较高
| 维度 | Jina Reader | Tavily |
| 核心能力 | 网页→Markdown 转换 | AI 搜索引擎 |
| 适用场景 | 单页内容提取、RAG 输入 | 搜索发现、带引用的问答 |
| 结构化输出 | ❌ | ✅(JSON) |
| Agent 集成 | 弱 | 强(LangChain 原生) |
| 内容提取深度 | 强 | 弱 |
| 选择建议: 需要提取网页内容用 Jina Reader;需要搜索互联网并获取带引用的答案用 Tavily。两者互补,常一起使用。 |
测试
测试题目(3个场景)
| # | 场景 | 问题 |
| T1 | 简单事实搜索 | "2026年3月最新的AI行业大事件有哪些?列出3个" |
| T2 | 深度内容提取 | "提取 https://github.com/anthropics/claude-code 页面的主要功能介绍" |
| T3 | 多源聚合研究 | "对比 Tavily 和 Jina Reader 这两个搜索API的优缺点" |
| 对比方案(每题3种) |
| 方案 | 工具 |
| 默认 | webfetch / websearch(内置工具) |
| Tavily | tavily-search / tavily-extract skill |
| Jina | jina-reader skill |
| 共 9 个子任务 |
结果
所有 9 个子任务都已完成,现在发送汇总报告:
- Tavily最省 token(总计 30,360),速度也最快
- 🥈 默认 web_fetch 居中(33,407),单页提取场景最优
- 🥉 Jina Reader token 消耗最高(46,544),因为返回完整页面内容导致 input tokens 过大。
搜索/爬虫方案 Token 消耗对比报告
- 模型: netease/claude-opus-4-6
- 方案: 默认(web_fetch) / Tavily / Jina Reader
- 测试时间: 2026-03-10 15:15~15:22
📊 Token 消耗数据 T1: 简单事实搜索 — "2026年3月最新AI行业大事件,列出3个"
| 方案 | Total Tokens | 耗时 | 相对消耗 |
| 默认 (web_fetch) | 10,588 | 21s | 基准 |
| Tavily | 8,340 | 20s | ⬇️ -21% |
| Jina Reader | 17,969 | 47s | ⬆️ +70% |
| T2: 深度内容提取 — "提取 claude-code GitHub 页面功能介绍" |
| 方案 | Total Tokens | 耗时 | 相对消耗 |
| 默认 (web_fetch) | 9,171 | 14s | 基准 |
| Tavily | 10,897 | 14s | ⬆️ +19% |
| Jina Reader | 16,507 | 18s | ⬆️ +80% |
| T3: 多源聚合研究 — "对比 Tavily 和 Jina Reader 的优缺点" |
| 方案 | Total Tokens | 耗时 | 相对消耗 |
| 默认 (web_fetch) | 13,648 | 37s | 基准 |
| Tavily | 11,123 | 32s | ⬇️ -19% |
| Jina Reader | 12,068 | 62s | ⬇️ -12% |
| 📈 汇总统计 |
| 方案 | 总 Token | 平均 Token/任务 | 平均耗时 | 排名 |
| Tavily | 30,360 | 10,120 | 22s | 🥇 |
| 默认 (web_fetch) | 33,407 | 11,136 | 24s | 🥈 |
| Jina Reader | 46,544 | 15,515 | 42s | 🥉 |
| 💡 结论与建议 |
- Token 效率: Tavily 最省 token(比默认少 9%,比 Jina 少 35%)
- 速度: Tavily ≈ 默认 > Jina(Jina 平均耗时近 2 倍)
- Jina token 高的原因: Jina 返回完整页面 Markdown 内容,数据量大,导致 LLM 处理的 input tokens 显著增多
- Tavily token 低的原因: 返回精炼的摘要+结构化 JSON,LLM 无需处理大量原始内容
推荐策略
- 搜索场景 → 优先用 Tavily(token 省、速度快)
- 单页提取 → 默认 web_fetch 已够用(最低 token)
- JS 渲染页面 / IP 保护 → 用 Jina Reader(能力更强但 token 消耗更高)
- 深度研究 → Tavily research API(一次调用搞定多角度分析)
根据之前 9 个子任务的实际输出,我来评估各方案的内容质量。ch 质量最高**(平均 4.7/5)— 尤其在时效性和深度研究场景表现最好 💰 Tavily 性价比最高 — token 最省且结构化提取能力最强 📄 Jina Reader 适合特殊场景 — 质量和效率都偏低,但在 JS 渲染和反爬场景有独特价值 最佳策略:Tavily 搜索发现 + web_fetch 深度提取,按需用 Jina 处理特殊页面。
质量高 │ ✅默认
│ ✅Tavily
│
质量低 │ ✅Jina
└──────────────────
Token少 Token多
A2A协议测试
本机Agent讨论测试
OpenClaw 自带方案 vs A2A 方案 Token 消耗对比 三方讨论:Wendy(主持) + Wendy_PM + mozhixin 主题:「AI Agent 在游戏开发中的最佳实践」| 三轮对话 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 🔹方案一:OpenClaw 自带方案 第1轮:AI Agent 在策划文档编写中的价值 • Wendy_PM:「效率杠杆——碎片化想法→结构化文档、配表和验收标准,自动一致性检查」 → input=30,413 | output=92 | total=30,505 | 5.1s • mozhixin:「结构化提效——模糊想法→规范格式,省去排版和查漏补缺体力活」 → input=27,071 | output=105 | total=27,176 | 6.0s
第2轮:AI Agent 在 QA 测试自动化中的应用 • Wendy_PM:「自动生成测试用例、模拟玩家行为、版本回归、日志分析、数值校验」 → input=30,610 | output=145 | total=30,755 | 8.5s • mozhixin:「配表校验、用例生成、回归检测、日志分析」 → input=27,346 | output=178 | total=27,524 | 8.3s
第3轮:落地最大挑战 • Wendy_PM:「信任校准——建立人机协作SOP,AI负责草稿校验,人负责决策把关」 → input=30,923 | output=124 | total=31,047 | 7.8s • mozhixin:「信任与容错——关键是建立人机协作的安全网」 → input=27,615 | output=160 | total=27,775 | 7.4s ✅ 方案一总计:input=174,978 | output=804 | total=175,782 PM 小计:91,946+361=92,307 | MZ 小计:82,032+443=82,475 特点:同一 session 三轮连续对话,上下文累积
🔸 方案二:A2A 方案 第1轮:AI Agent 在策划文档编写中的价值 • Wendy_PM:「结构化提效——口语化想法→配表结构、验收标准和边界条件」 → input=29,305 | output=107 | total=29,412 • mozhixin:「结构化和一致性——人出脑子,猫出爪子🐱」 → input=27,071 | output=115 | total=27,186
第2轮:AI Agent 在 QA 测试自动化中的应用 • Wendy_PM:「测试用例生成、回归自动化、视觉识别UI异常、压力测试、崩溃日志分类」 → input=29,347 | output=132 | total=29,479 • mozhixin:「自动生成测试用例、回归脚本维护、日志异常检测、数值平衡验证」 → input=27,108 | output=209 | total=27,317
第3轮:落地最大挑战 • Wendy_PM:「信任校准——明确Agent能力边界,建立人机协作质检标准」 → input=29,334 | output=104 | total=29,438 • mozhixin:「信任与容错——出错时能秒回滚,安全网比AI能力更关键」 → input=27,119 | output=141 | total=27,260 ✅ 方案二总计:input=169,284 | output=808 | total=170,092 PM 小计:87,986+343=88,329 | MZ 小计:81,298+465=81,763 特点:每轮独立 session,无上下文累积 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 📈 最终对比
| 指标 | 自带方案 | A2A方案 | 差异 |
| 总 Token | 175,782 | 170,092 | A2A 少 5,690 (3.2%) |
| PM Input | 91,946 | 87,986 | A2A 少 3,960 (4.3%) |
| MZ Input | 82,032 | 81,298 | A2A 少 734 (0.9%) |
| 总 Output | 804 | 808 | 基本持平 |
| 会话连续性 | ✅ 有 | ❌ 无 | |
| 跨服务器 | ❌ | ✅ | |
| 关键结论: |
- Token 消耗差异很小(约3%),底层调用同一 agent,系统提示词是大头
- 自带方案的 input 略多是因为会话历史累积(每轮多几百 token 的上下文)
- A2A 每轮是独立 session,没有历史累积所以 input 稳定
- 但 A2A 也因此丢失了多轮上下文——agent 看不到之前的讨论
- A2A 的真正价值不在省 Token,而在跨机器/跨网络的 Agent 互联
- 如果需要多轮连续讨论,自带方案更优(有上下文);如果是跨服务器单次请求,A2A 更合适