Files
BlueRoseNote/07-Other/AI/AI Agent/OpenClaw/实验结果/一些实验结果.md

9.6 KiB
Raw Blame History

前言

OpenClaw原生方案/Jina / TinySearch 测试结果

已获取足够信息,下面是总结: Tavily vs Jina Reader API 对比 Jina Reader 优点:

  • 极简使用:只需在 URL 前加 r.jina.ai/ 即可获取干净 Markdown
  • 提供搜索端点s.jina.ai和事实验证端点g.jina.ai
  • 免费额度可用,上手零门槛
  • 输出 LLM 友好的 Markdown适合快速内容提取 缺点:
  • 只能处理单页,无法爬取整站
  • 输出为原始 Markdown无结构化 JSON 提取
  • 无 schema 验证 / 类型安全
  • 免费层有速率限制,付费定价不够透明
  • 缺少 LangChain 等 AI Agent 框架的原生集成

Tavily 优点:

  • 专为 AI/RAG 场景设计的搜索 API返回带来源引用的结果
  • 与 LangChain、LlamaIndex 等框架原生集成
  • 结果包含摘要和来源 URL适合需要 citation 的场景
  • 搜索质量针对 AI Agent 优化 缺点:
  • 侧重"搜索发现",不擅长深度网页内容提取
  • 不提供将网页转为干净 Markdown 的能力(需配合其他工具)
  • 免费额度有限,重度使用成本较高
维度 Jina Reader Tavily
核心能力 网页→Markdown 转换 AI 搜索引擎
适用场景 单页内容提取、RAG 输入 搜索发现、带引用的问答
结构化输出 JSON
Agent 集成 LangChain 原生)
内容提取深度
选择建议: 需要提取网页内容用 Jina Reader需要搜索互联网并获取带引用的答案用 Tavily。两者互补常一起使用。

测试

测试题目3个场景

# 场景 问题
T1 简单事实搜索 "2026年3月最新的AI行业大事件有哪些列出3个"
T2 深度内容提取 "提取 https://github.com/anthropics/claude-code 页面的主要功能介绍"
T3 多源聚合研究 "对比 Tavily 和 Jina Reader 这两个搜索API的优缺点"
对比方案每题3种
方案 工具
默认 webfetch / websearch内置工具
Tavily tavily-search / tavily-extract skill
Jina jina-reader skill
共 9 个子任务

结果

所有 9 个子任务都已完成,现在发送汇总报告:

  • Tavily最省 token总计 30,360速度也最快
  • 🥈 默认 web_fetch 居中33,407单页提取场景最优
  • 🥉 Jina Reader token 消耗最高46,544因为返回完整页面内容导致 input tokens 过大。

搜索/爬虫方案 Token 消耗对比报告

  • 模型: netease/claude-opus-4-6
  • 方案: 默认(web_fetch) / Tavily / Jina Reader
  • 测试时间: 2026-03-10 15:15~15:22

📊 Token 消耗数据 T1: 简单事实搜索 — "2026年3月最新AI行业大事件列出3个"

方案 Total Tokens 耗时 相对消耗
默认 (web_fetch) 10,588 21s 基准
Tavily 8,340 20s ⬇️ -21%
Jina Reader 17,969 47s ⬆️ +70%
T2: 深度内容提取 — "提取 claude-code GitHub 页面功能介绍"
方案 Total Tokens 耗时 相对消耗
默认 (web_fetch) 9,171 14s 基准
Tavily 10,897 14s ⬆️ +19%
Jina Reader 16,507 18s ⬆️ +80%
T3: 多源聚合研究 — "对比 Tavily 和 Jina Reader 的优缺点"
方案 Total Tokens 耗时 相对消耗
默认 (web_fetch) 13,648 37s 基准
Tavily 11,123 32s ⬇️ -19%
Jina Reader 12,068 62s ⬇️ -12%
📈 汇总统计
方案 总 Token 平均 Token/任务 平均耗时 排名
Tavily 30,360 10,120 22s 🥇
默认 (web_fetch) 33,407 11,136 24s 🥈
Jina Reader 46,544 15,515 42s 🥉
💡 结论与建议
  1. Token 效率: Tavily 最省 token比默认少 9%,比 Jina 少 35%
  2. 速度: Tavily ≈ 默认 > JinaJina 平均耗时近 2 倍)
  3. Jina token 高的原因: Jina 返回完整页面 Markdown 内容,数据量大,导致 LLM 处理的 input tokens 显著增多
  4. Tavily token 低的原因: 返回精炼的摘要+结构化 JSONLLM 无需处理大量原始内容

推荐策略

  1. 搜索场景 → 优先用 Tavilytoken 省、速度快)
  2. 单页提取 → 默认 web_fetch 已够用(最低 token
  3. JS 渲染页面 / IP 保护 → 用 Jina Reader能力更强但 token 消耗更高)
  4. 深度研究 → Tavily research API一次调用搞定多角度分析

根据之前 9 个子任务的实际输出我来评估各方案的内容质量。ch 质量最高**(平均 4.7/5— 尤其在时效性和深度研究场景表现最好 💰 Tavily 性价比最高 — token 最省且结构化提取能力最强 📄 Jina Reader 适合特殊场景 — 质量和效率都偏低,但在 JS 渲染和反爬场景有独特价值 最佳策略Tavily 搜索发现 + web_fetch 深度提取,按需用 Jina 处理特殊页面。

质量高 │  ✅默认        
       │       ✅Tavily  
       │              
质量低 │          ✅Jina
       └──────────────────
       Token少    Token多

A2A协议测试

本机Agent讨论测试

OpenClaw 自带方案 vs A2A 方案 Token 消耗对比 三方讨论Wendy(主持) + Wendy_PM + mozhixin 主题「AI Agent 在游戏开发中的最佳实践」| 三轮对话 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 🔹方案一OpenClaw 自带方案 第1轮AI Agent 在策划文档编写中的价值 • Wendy_PM「效率杠杆——碎片化想法→结构化文档、配表和验收标准自动一致性检查」 → input=30,413 | output=92 | total=30,505 | 5.1s • mozhixin「结构化提效——模糊想法→规范格式省去排版和查漏补缺体力活」 → input=27,071 | output=105 | total=27,176 | 6.0s

第2轮AI Agent 在 QA 测试自动化中的应用 • Wendy_PM「自动生成测试用例、模拟玩家行为、版本回归、日志分析、数值校验」 → input=30,610 | output=145 | total=30,755 | 8.5s • mozhixin「配表校验、用例生成、回归检测、日志分析」 → input=27,346 | output=178 | total=27,524 | 8.3s

第3轮落地最大挑战 • Wendy_PM「信任校准——建立人机协作SOPAI负责草稿校验人负责决策把关」 → input=30,923 | output=124 | total=31,047 | 7.8s • mozhixin「信任与容错——关键是建立人机协作的安全网」 → input=27,615 | output=160 | total=27,775 | 7.4s 方案一总计input=174,978 | output=804 | total=175,782 PM 小计91,946+361=92,307 | MZ 小计82,032+443=82,475 特点:同一 session 三轮连续对话,上下文累积

🔸 方案二A2A 方案 第1轮AI Agent 在策划文档编写中的价值 • Wendy_PM「结构化提效——口语化想法→配表结构、验收标准和边界条件」 → input=29,305 | output=107 | total=29,412 • mozhixin「结构化和一致性——人出脑子猫出爪子🐱」 → input=27,071 | output=115 | total=27,186

第2轮AI Agent 在 QA 测试自动化中的应用 • Wendy_PM「测试用例生成、回归自动化、视觉识别UI异常、压力测试、崩溃日志分类」 → input=29,347 | output=132 | total=29,479 • mozhixin「自动生成测试用例、回归脚本维护、日志异常检测、数值平衡验证」 → input=27,108 | output=209 | total=27,317

第3轮落地最大挑战 • Wendy_PM「信任校准——明确Agent能力边界建立人机协作质检标准」 → input=29,334 | output=104 | total=29,438 • mozhixin「信任与容错——出错时能秒回滚安全网比AI能力更关键」 → input=27,119 | output=141 | total=27,260 方案二总计input=169,284 | output=808 | total=170,092 PM 小计87,986+343=88,329 | MZ 小计81,298+465=81,763 特点:每轮独立 session无上下文累积 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 📈 最终对比

指标 自带方案 A2A方案 差异
总 Token 175,782 170,092 A2A 少 5,690 (3.2%)
PM Input 91,946 87,986 A2A 少 3,960 (4.3%)
MZ Input 82,032 81,298 A2A 少 734 (0.9%)
总 Output 804 808 基本持平
会话连续性
跨服务器
关键结论:
  1. Token 消耗差异很小约3%),底层调用同一 agent系统提示词是大头
  2. 自带方案的 input 略多是因为会话历史累积(每轮多几百 token 的上下文)
  3. A2A 每轮是独立 session没有历史累积所以 input 稳定
  4. 但 A2A 也因此丢失了多轮上下文——agent 看不到之前的讨论
  5. A2A 的真正价值不在省 Token而在跨机器/跨网络的 Agent 互联
  6. 如果需要多轮连续讨论自带方案更优有上下文如果是跨服务器单次请求A2A 更合适