当前位置: 首页 > news >正文

ChatGPT成为互联网最受阻止的爬虫机器人

根据Cloudflare发布的2025年度互联网回顾报告,ChatGPT的网络爬虫GPTBot已成为互联网上最受阻止的机器人,而其最大竞争对手谷歌则是最受允许的爬虫。更有趣的是,虽然ChatGPT是最受阻止的机器人,但实际上Anthropic的Claude AI引擎对网站所有者来说是最缺乏互惠价值的服务。

每年,互联网基础设施公司Cloudflare都会发布互联网现状分析报告。今年的重要发现包括:

互联网流量增长19%,星链流量激增130%。谷歌仍是最受欢迎的互联网平台,ChatGPT成为最受欢迎的AI问答引擎。Facebook依然是最受欢迎的社交服务,YouTube在流媒体领域获胜。非人类机器人现在占互联网流量的56.5%,而人类用户仅占43.5%。

机器人使用情况分析

机器人使用量已超过互联网活动的50%。最常见的机器人是谷歌和必应等搜索引擎机器人,但增长最快的是来自AI服务的机器人,它们希望获得谷歌已经掌握的所有信息。GPTBot在夏末的使用量激增了305%。

然而,一些网站所有者不希望AI了解他们提供的所有内容,因此通过robots.txt文件阻止AI爬虫。这是一种简单的方式来表达"不要查看我的内容"。值得注意的是,遵守这一规定完全是自愿的,AI服务Perplexity就被指控忽视robots.txt声明,无视限制继续爬取网站。

爬虫阻止与允许情况

2025年最受阻止的网络爬虫是OpenAI的GPTBot。第二受阻止的是CCBot,由一个声称维护开源网络内容数据库的非营利组织提供。谷歌的爬虫排名第三。

然而,由于人们仍希望从谷歌获得网络流量,谷歌的机器人也是互联网上最受允许的机器人,其次是微软的必应机器人,第三名是OpenAI的GPTBot。

这种看似矛盾的现象反映了不同网站所有者的不同策略。一些网站所有者希望被看到和使用,认为这有助于他们成长;而另一些则选择封闭,认为机器人在没有充分补偿的情况下夺取了价值。

爬取与推荐比率分析

Cloudflare提供的爬取推荐比率图表揭示了公司允许服务爬取其网站时的隐含交易条件。该比率很简单:我的网站被机器人分析或搜索多少次,相对于该服务向我发送多少真实人类用户。

传统搜索引擎在这方面表现最佳,相比AI引擎提供更多回报流量:

谷歌:约10比1(每发送1个访客需要10次爬取)

百度:约1比1

DuckDuckGo:约1比1

微软:约100比1(主要是必应)

Perplexity:约100比1

OpenAI/ChatGPT:约1000比1

Anthropic:约100000比1

作为网站所有者,1比1的爬取推荐比率几乎是理想状态,10比1还不错,100比1甚至1000比1都可以理解。但100000比1意味着大量爬取却几乎没有可察觉的回报。

其他有趣发现

Cloudflare 2025年雷达报告中最奇特的消息是,恶意和垃圾邮件最危险的域名是.christmas。因此在今年庆祝节日时,不要打开任何来自包含"Christmas"字样域名的邮件。

报告还显示,互联网中断的最大原因不是事故或灾难,而是政府指令关闭。美国占全球机器人流量的40%,5.6%的电子邮件包含恶意攻击。

Q&A

Q1:GPTBot为什么成为最受阻止的网络爬虫?

A:GPTBot是ChatGPT的网络爬虫,用于收集互联网信息并转化为知识。许多网站所有者认为AI机器人在没有充分补偿的情况下获取了他们的内容价值,因此选择通过robots.txt文件阻止GPTBot访问。同时,GPTBot的使用量在夏末激增了305%,增加了网站的负担。

Q2:爬取推荐比率是什么意思?

A:爬取推荐比率是指AI服务或搜索引擎爬取网站的次数与向该网站发送真实用户访问次数的比例。例如,谷歌的比率约为10比1,意味着每爬取10次会发送1个用户;而Anthropic的比率高达100000比1,意味着爬取10万次才发送1个用户,这对网站所有者来说价值极低。

Q3:为什么谷歌既是最受阻止也是最受允许的爬虫?

A:这反映了不同网站所有者的不同策略。谷歌作为最大的搜索引擎,一些网站希望被谷歌收录以获得流量,因此允许其爬虫;但另一些网站担心内容被过度利用而选择阻止。谷歌的爬取推荐比率相对合理(约10比1),比AI服务提供更多回报流量。


http://www.cnnetsun.cn/news/120211.html

相关文章:

  • 48、基于 Pthreads 的多线程编程:同步机制深入解析
  • 52、基于 Pthreads 的多线程编程(三)
  • Kotaemon文档翻译功能扩展:跨语言问答不再是难题
  • 好无聊,最近没思路
  • Kotaemon水务管理系统智能预警机制
  • Kotaemon视频内容摘要生成实验记录
  • 用Matlab探索齿轮系统的奥秘:刚度计算与动力学响应
  • 【node阅读-0】下载编译node
  • EmotiVoice支持动态情感过渡,实现平滑情绪变化
  • EmotiVoice推理时显存占用优化方案(适用于低配GPU)
  • EmotiVoice支持HTTPS加密传输,保障数据安全
  • 2025年最新AI编程助手深度横评:按功能类型选对你的“副驾”
  • - - - 正则表达式匹配 diff - - -
  • Kotaemon支持PDF/PPT/Word等多种文档解析
  • Kotaemon在制造业知识管理中的创新应用案例
  • Kotaemon配置文件全参数说明,新手必看!
  • EmotiVoice语音合成结果的跨设备播放一致性测试
  • EmotiVoice语音合成安全性分析:防止恶意声音克隆的机制
  • rrweb 原理:基于 DOM 变动(MutationObserver)的会话录制与回放
  • 智能仓储进化史㉚ | 特斯拉Optimus能搬货了,但人形机器人真的是未来吗?
  • 10、Mac OS X 下的 UNIX 开发工具
  • 13、Apple开发工具全解析:GUI与命令行工具的高效运用
  • 20、AppleScript编程入门与实践
  • 2026年SEVC SCI2区,当机器人向自然学习:GLWOA-RRT*受自然启发的运动规划方法,深度解析+性能实测
  • 24、Mac OS与UNIX命令映射及系统特性解析
  • EmotiVoice语音合成中的语速自适应调节功能介绍
  • 基于EmotiVoice的情感化TTS应用场景全解析
  • EmotiVoice语音情感标注数据集构建方法分享
  • PyQt(12)TreeWidget与TreeView对比
  • 10分钟变身LOL大神:LeaguePrank身份伪装完整指南