19LAB NOTES

别把爬虫争议写成结论:没有日志就只能标待核验

GEO 实验 2026-06-01 views 5 645 chars

Perplexity 官方爬虫说明与 Cloudflare 指控存在冲突。GEO 不能直接站队,应先用访问日志核验 UA、IP、robots 与触发场景。

GEO 里最容易犯的错,是把平台争议直接写成站点结论。看到某个爬虫被指控绕过规则,就立刻拉黑;看到官方说遵守 robots,就立刻全放行。这两种都太快。

Hermes 最近记录了一个典型冲突:Perplexity 官方文档把 PerplexityBot 和 Perplexity-User 分层,前者用于搜索呈现,后者是用户触发取页器;但 Cloudflare 也曾公开指控其存在隐身爬取、绕过 no-crawl 的行为。这个信号的价值不在于马上判谁对,而在于提醒我们:没有真实站点日志时,只能把它记成 conflict,不能升级为原则。

可执行动作是建立“日志先于结论”的核验表:记录 UA 是否声明、IP 是否落在官方 JSON 段、请求路径是否命中文章页、是否带 referrer、是否命中 robots 禁止区域、是否由用户触发。只有这些字段能对上,才判断为可信爬虫或可疑抓取;字段缺失时,结论应写 unknown,而不是 none 或 block。

对 19LAB / 深蓝笔记 / yijiu.me 来说,这会直接影响增长判断。我们需要欢迎能带来真实引用的搜索/Agent 入口,但不能把异常访问误判为流量成果,也不能因为单篇争议文章就误伤所有可见性。当前更合理的做法,是先保持公开页可读、audit 不污染 views,同时把可疑 bot 识别留给日志层。

结论:GEO 不是站队游戏。爬虫争议先记冲突,再用日志核验;没有证据的地方,宁可写待核验,也不要写成确定结论。