据互联网基础设施提供商 Cloudflare 称,即使在这些网站明确屏蔽 Perplexity 后,其爬虫程序仍继续访问来自数万个网站的内容。该公司周一表示,已将 Perplexity 从其已验证的机器人程序中移除,并对其所谓的欺骗性抓取行为实施了屏蔽。
Perplexity 总部位于旧金山,由 Aravind Srinivas(首席执行官,前 OpenAI 研究员)、Denis Yarats(前 Facebook AI)、Johnny Ho 和 Andy Konwinski(Databricks 联合创始人)于 2022 年创立。该公司已获得包括 Elad Gil、Nat Friedman(前 GitHub 首席执行官)和 Nvidia 等投资者的融资,并且估值180亿美元上个月筹集了 1 亿美元。
最近的冲突源于 Cloudflare 的客户抱怨称,尽管 Perplexity 已实施 robots.txt 指令和特定的防火墙规则来阻止这家人工智能公司宣称的爬虫程序,但 Perplexity 仍在抓取他们的网站数据。Cloudflare 工程师 Gabriel Corral、Vaibhav Singhal、Brian Mitchell 和 Reid Tatoris 在测试中证实,“Perplexity 的爬虫程序确实在特定页面上被阻止了。”
为了测试 Perplexity 的行为,Cloudflare 创建了多个新购买的域名,并设置了 robots.txt 文件,禁止所有自动访问。“我们进行了一项实验,向 Perplexity AI 询问了有关这些域名的问题,发现 Perplexity 仍然会提供有关每个受限制域名上托管的具体内容的详细信息。”
接下来发生的事情让他们大吃一惊。Perplexity 似乎并没有遵守封锁规定,反而改变了策略。“我们观察到,Perplexity 不仅使用了他们声明的用户代理,还在 macOS 上使用了一款通用浏览器,试图在他们声明的爬虫程序被屏蔽时模拟 Google Chrome。”工程师们说道。写道.
这些隐形爬虫采用了复杂的规避技术。“这个未声明的爬虫使用了多个未列入 Perplexity 官方 IP 范围的 IP,并会根据 robots.txt 的限制性策略和 Cloudflare 的屏蔽规则,轮流使用这些 IP。除了轮流使用 IP 之外,我们还观察到来自不同 ASN 的请求,试图进一步规避网站屏蔽。”
据 Cloudflare 称,Perplexity 的“已声明”爬虫(那些易于识别的爬虫)每天生成 2000 万到 2500 万个请求,而那些未声明的隐形爬虫(那些依靠不正当手段隐藏其目的的爬虫)每天又生成 300 万到 600 万个请求。“我们观察到这种活动涉及数万个域名,每天生成数百万个请求。”
该公司没有回应解密的置评请求。一位发言人驳斥了这些指控TechCrunch这只不过是 Cloudflare 的“推销”手段而已。
Cloudflare 首席执行官马修·普林斯 (Matthew Prince) 一直直言不讳,认为人工智能公司对网络内容的提取是不可持续的。“随着人们越来越依赖人工智能摘要,搜索流量的推荐量急剧下降。”今年 7 月,他披露了一些令人震惊的比例:谷歌每抓取 18 个页面,就会带来 1 名访客,而人工智能公司的比例则要高得多。OpenAI 的比例从六个月前的 250 比 1 下降到今天的 1500 比 1。Anthropic 的数字更为极端,同期的比例从 6000 比 1 跃升至 60000 比 1。
这促使 Cloudflare 推出了所谓的“内容独立日”,默认阻止所有新域名的 AI 爬虫,成为事实上的保护内容创作者免受讨厌的 AI 爬虫威胁的义务警员。
作为 解密此前报道自去年秋季以来,已有超过一百万个网站选择屏蔽,其中包括美联社, 时间, 《大西洋月刊》, BuzzFeed、Reddit、Quora 和环球音乐集团也加入了这一运动。
Cloudflare 表示:“我们明确要求爬虫程序透明、服务于明确的目的、执行特定的活动,最重要的是,遵循网站指令和偏好。” 该公司将 Perplexity 的行为与 OpenAI 的行为进行了对比,称 OpenAI 正确遵守 robots.txt 文件,并在被阻止时停止爬取。
Cloudflare 的应对措施包括立即采取技术措施和长期计划。该公司已将隐形爬虫的签名匹配功能部署到其托管规则中,所有客户(包括免费用户)均可使用。此外,Cloudflare 还在开发“AI 迷宫”等工具,该工具可将不合规的机器人困在虚假内容的迷宫中;此外,Cloudflare 还开发了一个“按次付费”市场,允许出版商向 AI 公司收取访问其内容的费用。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com