在去年, 我们看到点击和SEO流量下降, 由于人工智能驱动的搜索成为我们的新规范, 在AI搜索中理解和跟踪能见度的关键是日志分析.
逻辑分析长期以来一直是技术SEO的基石,帮助SEO跟踪和了解Googlebot的行为,并最终影响索引和排名. 对AI bots来说,这个方法是一样的:相同的服务器日志,相同的分析技术,而且常常是相同的工具.
这些日志所讲述的故事根本不同 AI平台依赖几种爬行者**,每个平台的建造目的与传统的搜索引擎爬行不同. 这些AI bots合作收集,解释网络内容,并将内容转换为数据管道,在AI聊天员使用网络搜索工具时为现代AI模型提供动力,并在地面过程中直接互动.
*AI 机器人日志分析:方法相同,故事不同 页:1
理解你所寻求的东西 改变你阅读日志的方式。 当你们追踪几个有不同行为和目标的混蛋时,你们不再寻找同样的东西。 而不是监控爬行效率或索引模式,
在文章中, 我们将研究不同种类的AI bots**, 它们如何不同, 它们做什么,
** 三类AI bots**
并非所有的AI bots 创建平等。 虽然他们都访问你的网站,但每种类型都有明确的目的. 某些bots是用来为下一代AI模型收集数据的,另一些则用来构建搜索索引,有些则用于实时回答用户的询问.
了解哪个机器人在做什么 改变你如何解释日志数据 AI bots属于爬行者三大家族,它们被ChatGPT等平台使用. 这些分类与Oncrawl的AI bots仪表板相同:
-
- AI培训 ** AI搜索点数 AI用户bots*
-
** 用于示范培训的内容 改进搜索结果质量和页面索引 实时内容擦除以获取用户答案和引用
** 已知用户代理QQ GPTBot, CCBot, bytespider, Claudebot ClaudeSearch-Bot... 查特GPT用户 查特GPT用户
** 对人工智能搜索的影响。 影响未来的模型知识(延迟,几个月后) 影响您在 AI 搜索索引中的包含 直接可见度影响(在用户查询时发生实时)
由 Oncrawl 的日志分析器发现完整支持的 bots 列表 。
-
-
-
-
- AI训练*
-
-
-
页:1
** 扩展目的**
AI训练 bots craw your website 来刮去可能用于LLM训练的内容. 它们的活动反映了AI系统如何从您的站点收集数据,用于未来的模型开发.
这些是最初的AI爬行者,在公司需要收集大量内容来训练他们的模型时设想出来的. 大部分为自己的AI平台收集数据,但有些平台,如Common Crawl的CCBot,充当多个AI公司的数据提供者.
** 爬行行为* 页:1
乍一看,AI训练bots似乎像传统的网络蜘蛛一样工作,跟随链接和爬行整个域. 然而,当你仔细查看数据时,你可以看到他们的行为远不如Googlebot这样的传统爬行者可以预测.
每个机器人都有不同的爬行能力和行为模式. 此外,大多数人并不遵循系统模式;他们往往在没有明确优先次序的情况下爬过他们能找到的任何内容。
与Googlebot相比的主要差异:
他们没有预算概念,
* 他们不处理 JavaScript 渲染
** 对人工智能搜索的影响**
从长远来看,对AI搜索的影响很小.
由人工智能训练机器人爬行内容并不能保证它能用来训练LLM。 实际上,大多数爬行内容由于数据清理管道繁多,从未成为模型培训. 以下是爬行与训练之间的结果:
发生了什么事?
────•───
爬行| Bots 收集原始网页内容
过滤QQ 垃圾邮件、 重复和低质量数据被删除
确定主题和内容类型
抽样 分散 均衡 实例保留
预处理 数据格式化并准备用于培训
校正 {} 选择模型中使用的最后子集
除了过滤挑战之外,还有很长的时间滞后。 LLM 知识截断更新每年最多发生一次或两次,在您的内容被爬行到可能影响模型知识之间造成几个月的延迟.
** 模式名称 ** 知识截止日期 ** 释放日期
- – - - - - - - - - - - - - - – -
GPT-5.1| 2024年10月1日 2025年11月14日
GPT-5| 2024年10月1日 2025年8月7日
GPT-4.1| 2024年6月01日 2025年4月14日
GPT-4o| 2023年10月1日 2024年5月13日
GPT-4| September 01, 2021| 2023年3月14日 (中文(简体) ).
GPT-3.5 涡轮 2021年9月1日 2024年1月24日
GPT-3.5| 2021年9月1日 2022年3月15日 互联网档案馆的存檔,存档日期2013-09-02.
GPT-3| 2020年10月1日| 2021年11月01日|.
** 关键外卖* 页:1
您不能将人工智能训练机器人活动与模型知识更新联系起来, 从而限制了您可以从此类机器人中获取的可操作的洞察力 。
然而,追踪这些资产仍为长期战略问题提供价值:
- 他们能成功爬上你的网站并访问你的内容吗?
- 它们针对哪些内容和资源?
- 允许他们爬行您的网站(在您的服务器或资源上)需要多少钱?
# AI 搜索bots
** 扩展目的**
AI搜索bots同步爬行您的网站,用于索引和改进搜索结果. 他们的活动更接近Googlebot点击等经典的SIO信号.
当AI平台如Perplexity,以及后来的ChatGPT在其LLMs之上引入搜索和定位进程时,它们需要专门搜索和索引的爬行器,就像Google使用Googlebot一样.
对于建立专有索引的平台,如Perplexity或Ibou,这些bot的功能与Googlebot完全一样:它们爬网来构建和维护网页索引.
对于在地面定位过程中使用第三方搜索引擎的平台,如ChatGPT所做的,角色不太明显. 根据OpenAI的官方文献,ChatGPT的搜索瓶(OAI-SearchBot)——"用于链接和表面网站,以在ChatGPT的搜索功能中获取搜索结果.
OpenAI的支助小组证实,审调处-SearchBot爬行网页,以提高搜索结果的质量和搜索功能本身。 但随着最近发现存在一个缓存索引的页面和搜索结果,这个bot也可能参与ChatGPT搜索的缓存系统OpenAI使用.
所有人工智能搜索工具的一个共同点是,它们没有为示范培训目的收集数据。
** 爬行行为* 页:1
与AI训练bots不同,AI搜索bots显示明显的爬行模式,并采取更具战略性的方法爬行网站. 他们并没有像Googlebot那样广泛爬行,
出现了两种显著的模式:
** 每页爬行频率每天一次**
这种爬行行为,平均每天每个URL的爬行频率为1次,解释了为什么它们爬行的页面比Googlebot少得多.
** 爬行模式有利于新页面**
他们主要日复一日地爬上新网页.
** 对人工智能搜索的影响**
当用户启动搜索功能时, 这些bots对定位进程至关重要, 并直接影响AI平台在响应中显示您网站的能力。
如果你挡住这些瓶子, 你被显示在结果中的机会就会大幅下降。 然而,定位进程仍然可以通过第三方搜索引擎索引访问您的页面,即使AI搜索机器人本身被屏蔽.
学习如何重新塑造 SEO 策略 。 在AI动力搜索中获取建立能见度的实用框架.
** 关键外卖* 页:1
AI搜索bots为Googlebot日志分析提供了类似的见解. 您可以确定:
- 你的网站有多少被爬行(覆盖率)
- 这些bots最频繁或忽略的页面类型
- 爬行频率最高的页(重要质量信号)
- 阻止访问网页的问题:
- 状态代码
- 服务器响应时间
增加AI搜索bot流量是AI平台对您内容感兴趣的积极信号. 反之,AI搜索机器人流量的减少是一个需要更深入调查的警告信号.
# AI 用户bots**
** 扩展目的**
AI 用户 bots 实时爬行您的网站以找到一个用户提示的答案. 他们的活动是AI接口中能见度的直接信号,并充当印象的代名词.
这就是人工智能搜索变得有形的地方. 当一个AI用户bot访问您的网站时,这意味着一个真正的用户刚刚触发了搜索查询,AI平台正在获取您的内容以回答他们的问题.
AI用户bots代表用户操作,
提示 查询扇出 搜索结果 * ** 不断刮刮 →** 回应 → 点击
就像AI搜索的bot一样,这些bot并不是为AI培训目的收集数据.
** 爬行行为* 页:1
AI用户bot不会在传统意义上爬行。 他们按要求获取一页,而不跟随链接,尽管他们确实跟随重定向.
他们的行为直接与AI聊天机器人用户活动相关. 当人们提出需要搜索才能回答的问题时,AI用户bots,如ChatGPT-User,访问网站以检索必要的内容.
*ChatGPT用户每周爬行行为 页:1
如果你专注于ChatGPT-User,你可以发现一个每周模式,它遵循典型的SIO交通趋势,周末有明显的下降.
*ChatGPT用户每日爬行行为 页:1
如果你放大日常模式, 你会看到夜间交通下降,
AI用户bot活动与AI聊天机器人即时活动之间的这种关联意味着您可以使用AI用户bot访问作为印象的代名词或即时音量来测量您在AI平台的能见度.
** 用户机器人击中 印象 页:1
** 对人工智能搜索的影响**
AI用户bots是跟踪用于测量和理解AI搜索的最有价值的bots. 他们打开AI黑匣子,帮助您测量您网站在零点击时代的能见度.
AI用户bots的访问有两个关键目的:
- 衡量和报告你的努力**: 随时间推移而作为KPI的音轨可见度
- ** 探索和寻找改进的见解**: 确定什么可行什么不可行
因为谷歌不需要实时爬行。 它询问的是其现有的指数。
** 关键外卖* 页:1
AI用户bot访问可以用作AI搜索能见度度度量:用于印象或即时音量的代称.
例如,在您的网站上从 ChatGPT- User 点击的每个机器人都代表着试图读取您的内容来引用 。 这并不能保证源在用户提示的答案中被实际使用, 聊天游戏 搜索中选择了此页面和其他搜索结果,作为可能包含解答提示所需信息的可信任源.
使用人工智能用户bots的bot点击,
- 获得哪些网页AI平台来回答真正的用户问题
- 有多少不同的网页被访问以及访问次数
- AI 平台获取的网页与从未访问的网页
随着时间的推移,你可以跟踪这个,就像你跟踪流量一样,并用它作为KPI来测量你的AI搜索优化结果. 由于点击量在减少,而AI搜索几乎没有产生任何,这为打开AI搜索黑匣子并测量点击前发生的情况提供了一个度量.
** 结束**
可靠的AI搜索数据仍然是标准道德操守办公室专业人员目前面临的最大挑战之一。 日志分析提供了一个解决方案,为了解AI平台行为提供了目前最有价值的领域数据.
在你的日志中跟踪AI bots需要理解它们的不同目的,因为每一个都讲述不同的故事. 需要监控的最重要bot是参与搜索和定位过程的两个bot:AI用户bots和AI搜索bots. 两者都提供了报告成果和发现可采取行动的见解的途径。
在下篇文章中, 我们将探索如何将AI用户bot访问变成可靠的AI搜索指标,