免费基础版+不限量
AI 爬虫追踪
上传或粘贴 Nginx 日志,识别 17 种搜索引擎和 AI 爬虫。统计频率、路径、时段、IP验证、收录推断。数据不上传服务器。
这个工具是什么?
AI爬虫追踪器可以分析你的 Nginx access.log,自动识别百度蜘蛛、头条蜘蛛、豆包、GPTBot、ClaudeBot 等 17 种搜索引擎和 AI 爬虫。所有分析在浏览器本地完成,日志数据不会上传到服务器。
了解哪些 AI 在抓取你的网站、抓取频率和热门路径,是 GEO 优化的关键数据支撑。
分析维度
蜘蛛种类识别
24小时热力图
热门路径分析
状态码分布
IP真伪验证
收录推断
使用流程
1
粘贴或上传日志
支持 Nginx combined 格式的 access.log
2
本地分析
浏览器解析日志,识别17种爬虫
3
查看报告
频率统计 + 热力图 + 路径 + 建议
日志输入
粘贴日志
上传文件
免费版: 粘贴<=5000行 / 上传<=2MB | 基础版+: 不限 + IP验证 + 收录推断 + 导出报告
分析结果
粘贴或上传 Nginx 日志后点击"开始分析"
什么是AI爬虫追踪?
AI爬虫追踪是通过分析服务器访问日志来识别哪些搜索引擎和AI大模型正在抓取你的网站。传统SEO只关注百度蜘蛛和谷歌蜘蛛,但在AI时代,豆包(Doubot)、GPTBot、ClaudeBot、Bytespider等AI爬虫的抓取行为直接影响你的品牌是否能被AI推荐。
通过分析爬虫的抓取频率、热门路径和状态码分布,你可以了解AI对你网站内容的关注重点,发现404错误和5xx故障,优化抓取效率。基础版用户还能使用IP验证功能,识别伪造User-Agent的恶意爬虫,以及收录推断功能,评估哪些页面可能已被AI索引。
常见问题
支持哪些日志格式?
目前支持 Nginx combined 格式(默认格式)的 access.log。格式为:IP - - [时间] "方法 路径 协议" 状态码 大小 "来源" "UA"。Apache 的 combined 格式也兼容。
日志数据会上传到服务器吗?
不会。所有解析和分析都在你的浏览器本地完成,日志内容不会发送到任何服务器。这也是为什么免费版有行数限制的原因,大量数据需要更多本地内存。
IP验证是什么意思?
某些恶意爬虫会伪造User-Agent假装是百度蜘蛛或GPTBot。IP验证功能通过检查访问IP是否属于对应公司的已知IP段来判断爬虫真伪。该功能需要基础版及以上账户。
收录推断的逻辑是什么?
基于多个信号综合判断:如果一个URL被2种以上蜘蛛访问且累计3次以上且返回200,判定为"已收录";被2种以上蜘蛛访问且返回200为"很可能";同一蜘蛛多次访问且返回200为"可能";仅1次200为"待评估";仅404为"已丢失"。