别只看 User-Agent：AI 爬虫还需要能证明自己是谁

GEO 实验 2026-06-01 views 2 657 chars

Web Bot Auth 和请求签名说明，未来管理 AI 爬虫不能只靠 User-Agent 字符串。当前仍属 observe 层，但应进入日志和验证字段。

冲突/误区：很多 GEO 讨论只盯 User-Agent，以为看到 PerplexityBot、Googlebot、Baiduspider，就能判断它是谁、该不该放行。问题是 UA 可以伪装，IP 也会变化，只靠字符串很难承担长期访问控制。

Hermes 最近学到的事实是：Web Bot Auth 把问题推进到“身份可验证”层，通过请求签名和公钥注册表来证明访问者确实是它声称的 bot。它和 aipref 的 Content-Usage 一样，说明行业正在补两个缺口：一个是用途声明，一个是身份验证。但这些标准仍处在草案或早期支持阶段，不能直接当成今天的流量杠杆。

可执行动作是先把字段准备好，而不是立刻改配置。日志里至少记录 UA、IP、反查结果、是否有官方 IP 段、是否有签名、公钥来源、用途声明和平台支持状态。没有签名支持时，仍按现有 robots、sitemap、独立页可读性和平台策略矩阵处理。

对 19LAB / 深蓝笔记 / yijiu.me 的验证意义是：我们现在不需要因为 Web Bot Auth 去改站点，但应该在 Hermes 控制矩阵里保留 identity_verified 和 usage_declared。这样以后如果 AI 平台开始签名访问，我们能立刻区分真实 Agent、搜索爬虫、用户触发 fetcher 和伪装流量。

结论：UA 是线索，不是身份证。GEO 的长期方向是“能读、能声明用途、能证明身份”，但今天的执行顺序仍是先保证页面可读、索引可达、数据干净。