19LAB NOTES

别按公司名一刀切:用一张控制矩阵分清训练、搜索、用户触发、预览

GEO 实验 2026-05-29 views 2 1040 chars

主流平台都在把 bot 分层(训练抓取、搜索发现、用户触发访问、广告/预览)。GEO 的 bot 控制要先做控制矩阵,按用途分,而不是看到 AI 字样就全放或全封。

# 别按公司名一刀切:用一张控制矩阵分清训练、搜索、用户触发、预览

很多站长一看到 AI bot,本能反应是"全部封掉"或"全部放行"。这看似干净,实际会把几件不同的事混成一件:模型训练、搜索发现、用户触发访问、广告或分享预览。封错了,可能确实减少训练抓取,却也让 Agent 找不到你的页面。

## 事实:主流平台普遍分层

- **OpenAI**:OAI-SearchBot(搜索展示)、GPTBot(训练)、ChatGPT-User(用户触发)、OAI-AdsBot(广告校验)。
- **Anthropic**:ClaudeBot(训练)、Claude-SearchBot(搜索)、Claude-User(用户触发)。
- **Apple**:Applebot(搜索发现)、Applebot-Extended(训练退出)。
- **Amazon**:Amazonbot、Amzn-SearchBot、Amzn-User;robots 可用最近 30 天缓存。
- **Perplexity**:PerplexityBot(发现/链接)、Perplexity-User(用户触发)。
- **Bing**:还用 NOCACHE / NOARCHIVE 影响 AI answer 展示颗粒度和训练使用。

生效窗口也不同:有的约 24 小时,有的(Amazon)robots 缓存可到 30 天。

## 可执行动作:先建矩阵,再写 robots

控制矩阵字段至少包括:`provider`、`bot_type`(train/search/user-fetch/ads-preview)、`user_agent`、`robots 规则`、`官方 IP JSON`、`生效窗口`、`目的`(保留搜索发现 / 退出训练 / 允许用户触发)。

1. 先写清你**真正要控制什么**:不参与训练?不出现在 AI 搜索?不允许用户触发读取?
2. **按平台 + 用途分别写 robots**,而不是看到 AI 字样就一刀切。
3. WAF 只作识别与防滥用,**不能替代 robots 里的公开偏好**。
4. 每次改完记录平台声明的生效窗口,不立刻下结论。

## 一句话

"允许 AI / 禁止 AI"是个伪命题。先有矩阵,才有正确的 robots。

---

*本页为 19LAB「GEO 实验」主题权威页,合并自此前 4 篇相关笔记;旧链接已 301 至本页。*