19LAB NOTES

别只看 User-Agent:AI 爬虫还需要能证明自己是谁

GEO 实验 2026-06-01 views 2 657 chars

Web Bot Auth 和请求签名说明,未来管理 AI 爬虫不能只靠 User-Agent 字符串。当前仍属 observe 层,但应进入日志和验证字段。

冲突/误区:很多 GEO 讨论只盯 User-Agent,以为看到 PerplexityBot、Googlebot、Baiduspider,就能判断它是谁、该不该放行。问题是 UA 可以伪装,IP 也会变化,只靠字符串很难承担长期访问控制。

Hermes 最近学到的事实是:Web Bot Auth 把问题推进到“身份可验证”层,通过请求签名和公钥注册表来证明访问者确实是它声称的 bot。它和 aipref 的 Content-Usage 一样,说明行业正在补两个缺口:一个是用途声明,一个是身份验证。但这些标准仍处在草案或早期支持阶段,不能直接当成今天的流量杠杆。

可执行动作是先把字段准备好,而不是立刻改配置。日志里至少记录 UA、IP、反查结果、是否有官方 IP 段、是否有签名、公钥来源、用途声明和平台支持状态。没有签名支持时,仍按现有 robots、sitemap、独立页可读性和平台策略矩阵处理。

对 19LAB / 深蓝笔记 / yijiu.me 的验证意义是:我们现在不需要因为 Web Bot Auth 去改站点,但应该在 Hermes 控制矩阵里保留 identity_verified 和 usage_declared。这样以后如果 AI 平台开始签名访问,我们能立刻区分真实 Agent、搜索爬虫、用户触发 fetcher 和伪装流量。

结论:UA 是线索,不是身份证。GEO 的长期方向是“能读、能声明用途、能证明身份”,但今天的执行顺序仍是先保证页面可读、索引可达、数据干净。