Files
BlueRoseNote/07-Other/AI/AI Agent/OpenClaw/实验结果/一些实验结果.md

200 lines
9.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 前言
- 搜索类
- [[#OpenClaw原生方案/Jina / TinySearch 测试结果]]
-
# OpenClaw原生方案/Jina / TinySearch 测试结果
已获取足够信息,下面是总结:
Tavily vs Jina Reader API 对比
**Jina Reader**
**优点:**
- 极简使用:只需在 URL 前加 r.jina.ai/ 即可获取干净 Markdown
- 提供搜索端点s.jina.ai和事实验证端点g.jina.ai
- 免费额度可用,上手零门槛
- 输出 LLM 友好的 Markdown适合快速内容提取
**缺点:**
- 只能处理单页,无法爬取整站
- 输出为原始 Markdown无结构化 JSON 提取
- 无 schema 验证 / 类型安全
- 免费层有速率限制,付费定价不够透明
- 缺少 LangChain 等 AI Agent 框架的原生集成
**Tavily**
**优点:**
- 专为 AI/RAG 场景设计的搜索 API返回带来源引用的结果
- 与 LangChain、LlamaIndex 等框架原生集成
- 结果包含摘要和来源 URL适合需要 citation 的场景
- 搜索质量针对 AI Agent 优化
**缺点:**
- 侧重"搜索发现",不擅长深度网页内容提取
- 不提供将网页转为干净 Markdown 的能力(需配合其他工具)
- 免费额度有限,重度使用成本较高
| | | |
| -------- | -------------- | --------------- |
| 维度 | Jina Reader | Tavily |
| 核心能力 | 网页→Markdown 转换 | AI 搜索引擎 |
| 适用场景 | 单页内容提取、RAG 输入 | 搜索发现、带引用的问答 |
| 结构化输出 | ❌ | ✅JSON |
| Agent 集成 | 弱 | 强LangChain 原生) |
| 内容提取深度 | 强 | 弱 |
选择建议: 需要提取网页内容用 Jina Reader需要搜索互联网并获取带引用的答案用 Tavily。两者互补常一起使用。
## 测试
测试题目3个场景
| | | |
|---|---|---|
|#|场景|问题|
|T1|简单事实搜索|"2026年3月最新的AI行业大事件有哪些列出3个"|
|T2|深度内容提取|"提取 https://github.com/anthropics/claude-code 页面的主要功能介绍"|
|T3|多源聚合研究|"对比 Tavily 和 Jina Reader 这两个搜索API的优缺点"|
对比方案每题3种
| | |
| ------ | ------------------------------------ |
| 方案 | 工具 |
| 默认 | webfetch / websearch内置工具 |
| Tavily | tavily-search / tavily-extract skill |
| Jina | jina-reader skill |
共 9 个子任务
### 结果
所有 9 个子任务都已完成,现在发送汇总报告:
- Tavily最省 token总计 30,360速度也最快
- 🥈 默认 web_fetch 居中33,407单页提取场景最优
- 🥉 Jina Reader token 消耗最高46,544因为返回完整页面内容导致 input tokens 过大。
搜索/爬虫方案 Token 消耗对比报告
- 模型: netease/claude-opus-4-6
- 方案: 默认(web_fetch) / Tavily / Jina Reader
- 测试时间: 2026-03-10 15:15~15:22
📊 **Token 消耗数据**
T1: 简单事实搜索 — "2026年3月最新AI行业大事件列出3个"
| | | | |
| -------------- | ------------ | --- | ------- |
| 方案 | Total Tokens | 耗时 | 相对消耗 |
| 默认 (web_fetch) | 10,588 | 21s | 基准 |
| Tavily | 8,340 | 20s | ⬇️ -21% |
| Jina Reader | 17,969 | 47s | ⬆️ +70% |
T2: 深度内容提取 — "提取 claude-code GitHub 页面功能介绍"
| | | | |
| -------------- | ------------ | --- | ------- |
| 方案 | Total Tokens | 耗时 | 相对消耗 |
| 默认 (web_fetch) | 9,171 | 14s | 基准 |
| Tavily | 10,897 | 14s | ⬆️ +19% |
| Jina Reader | 16,507 | 18s | ⬆️ +80% |
T3: 多源聚合研究 — "对比 Tavily 和 Jina Reader 的优缺点"
| | | | |
|---|---|---|---|
|方案|Total Tokens|耗时|相对消耗|
|默认 (web_fetch)|13,648|37s|基准|
|Tavily|11,123|32s|⬇️ -19%|
|Jina Reader|12,068|62s|⬇️ -12%|
📈 汇总统计
| | | | | |
| -------------- | ------- | ----------- | ---- | --- |
| 方案 | 总 Token | 平均 Token/任务 | 平均耗时 | 排名 |
| Tavily | 30,360 | 10,120 | 22s | 🥇 |
| 默认 (web_fetch) | 33,407 | 11,136 | 24s | 🥈 |
| Jina Reader | 46,544 | 15,515 | 42s | 🥉 |
💡 结论与建议
1. Token 效率: Tavily 最省 token比默认少 9%,比 Jina 少 35%
2. 速度: Tavily ≈ 默认 > JinaJina 平均耗时近 2 倍)
3. Jina token 高的原因: Jina 返回完整页面 Markdown 内容,数据量大,导致 LLM 处理的 input tokens 显著增多
4. Tavily token 低的原因: 返回精炼的摘要+结构化 JSONLLM 无需处理大量原始内容
推荐策略
1. 搜索场景 → 优先用 Tavilytoken 省、速度快)
2. 单页提取 → 默认 web_fetch 已够用(最低 token
3. JS 渲染页面 / IP 保护 → 用 Jina Reader能力更强但 token 消耗更高)
4. 深度研究 → Tavily research API一次调用搞定多角度分析
根据之前 9 个子任务的实际输出我来评估各方案的内容质量。ch 质量最高**(平均 4.7/5— 尤其在时效性和深度研究场景表现最好
💰 Tavily 性价比最高 — token 最省且结构化提取能力最强
📄 Jina Reader 适合特殊场景 — 质量和效率都偏低,但在 JS 渲染和反爬场景有独特价值
最佳策略Tavily 搜索发现 + web_fetch 深度提取,按需用 Jina 处理特殊页面。
```
质量高 │ ✅默认
│ ✅Tavily
质量低 │ ✅Jina
└──────────────────
Token少 Token多
```
# A2A协议测试
## 本机Agent讨论测试
OpenClaw 自带方案 vs A2A 方案 Token 消耗对比
三方讨论Wendy(主持) + Wendy_PM + mozhixin
主题「AI Agent 在游戏开发中的最佳实践」| 三轮对话
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
🔹**方案一OpenClaw 自带方案**
**第1轮AI Agent 在策划文档编写中的价值**
• Wendy_PM「效率杠杆——碎片化想法→结构化文档、配表和验收标准自动一致性检查」
→ input=30,413 | output=92 | total=30,505 | 5.1s
• mozhixin「结构化提效——模糊想法→规范格式省去排版和查漏补缺体力活」
→ input=27,071 | output=105 | total=27,176 | 6.0s
**第2轮AI Agent 在 QA 测试自动化中的应用**
• Wendy_PM「自动生成测试用例、模拟玩家行为、版本回归、日志分析、数值校验」
→ input=30,610 | output=145 | total=30,755 | 8.5s
• mozhixin「配表校验、用例生成、回归检测、日志分析」
→ input=27,346 | output=178 | total=27,524 | 8.3s
**第3轮落地最大挑战**
• Wendy_PM「信任校准——建立人机协作SOPAI负责草稿校验人负责决策把关」
→ input=30,923 | output=124 | total=31,047 | 7.8s
• mozhixin「信任与容错——关键是建立人机协作的安全网」
→ input=27,615 | output=160 | total=27,775 | 7.4s
✅ 方案一总计input=174,978 | output=804 | total=175,782
PM 小计91,946+361=92,307 | MZ 小计82,032+443=82,475
特点:同一 session 三轮连续对话,上下文累积
🔸 **方案二A2A 方案**
**第1轮AI Agent 在策划文档编写中的价值**
• Wendy_PM「结构化提效——口语化想法→配表结构、验收标准和边界条件」
→ input=29,305 | output=107 | total=29,412
• mozhixin「结构化和一致性——人出脑子猫出爪子🐱」
→ input=27,071 | output=115 | total=27,186
**第2轮AI Agent 在 QA 测试自动化中的应用**
• Wendy_PM「测试用例生成、回归自动化、视觉识别UI异常、压力测试、崩溃日志分类」
→ input=29,347 | output=132 | total=29,479
• mozhixin「自动生成测试用例、回归脚本维护、日志异常检测、数值平衡验证」
→ input=27,108 | output=209 | total=27,317
**第3轮落地最大挑战**
• Wendy_PM「信任校准——明确Agent能力边界建立人机协作质检标准」
→ input=29,334 | output=104 | total=29,438
• mozhixin「信任与容错——出错时能秒回滚安全网比AI能力更关键」
→ input=27,119 | output=141 | total=27,260
✅ 方案二总计input=169,284 | output=808 | total=170,092
PM 小计87,986+343=88,329 | MZ 小计81,298+465=81,763
特点:每轮独立 session无上下文累积
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
📈 最终对比
| | | | |
|---|---|---|---|
|指标|自带方案|A2A方案|差异|
|总 Token|175,782|170,092|A2A 少 5,690 (3.2%)|
|PM Input|91,946|87,986|A2A 少 3,960 (4.3%)|
|MZ Input|82,032|81,298|A2A 少 734 (0.9%)|
|总 Output|804|808|基本持平|
|会话连续性|✅ 有|❌ 无||
|跨服务器|❌|✅||
关键结论:
1. Token 消耗差异很小约3%),底层调用同一 agent系统提示词是大头
2. 自带方案的 input 略多是因为会话历史累积(每轮多几百 token 的上下文)
3. A2A 每轮是独立 session没有历史累积所以 input 稳定
4. 但 A2A 也因此丢失了多轮上下文——agent 看不到之前的讨论
5. A2A 的真正价值不在省 Token而在跨机器/跨网络的 Agent 互联
6. 如果需要多轮连续讨论自带方案更优有上下文如果是跨服务器单次请求A2A 更合适