亚马逊调查Perplexity AI:涉嫌违规抓取网站数据

业界
2024
06/29
15:17
环球网
分享
评论

6月29日,据多家外媒消息,亚马逊网络服务(AWS)已正式对人工智能搜索初创公司Perplexity AI展开调查,起因是后者被指控未经网站所有者同意,使用托管在AWS服务器上的爬虫程序抓取数据,且涉嫌违反robots.txt排除协议。

robots.txt协议作为一种网络标准,由网站管理员设置,旨在告知网络爬虫哪些页面可以被访问,哪些则禁止抓取。尽管遵守该协议是自愿的,但长期以来,各大搜索引擎和知名公司的爬虫程序普遍遵循这一标准。然而,近期有指控称,Perplexity AI的爬虫程序却选择了忽视。

根据《Wired》杂志的报道,其调查团队发现了一台托管在AWS服务器上的虚拟机,该机器使用的IP地址为44.221.181.252,在过去三个月内多次访问并抓取了Condé Nast旗下资产的内容,包括《Wired》杂志本身。此外,《卫报》、《福布斯》和《纽约时报》等媒体也报告了类似情况,指出该IP地址多次访问其出版物内容。

为验证Perplexity AI是否确实在抓取内容,《Wired》杂志将文章标题或简短描述输入Perplexity的聊天机器人进行测试。结果显示,聊天机器人返回的内容与原文措辞高度相似,且引用极少,进一步加剧了对其违规行为的质疑。

面对指控,Perplexity AI方面表示已回应亚马逊的询问,并否认其爬虫程序故意绕过robots.txt协议。公司发言人Sara Platnick强调,PerplexityBot在AWS上运行时尊重robots.txt文件,并确认公司控制的服务不会违反AWS服务条款进行爬虫活动。然而,她也承认,在特定情况下,即用户输入特定URL时,PerplexityBot会忽略robots.txt协议。

Perplexity AI首席执行官Aravind Srinivas则指出,公司确实使用了第三方网络爬虫程序,而Wired所识别的违规爬虫可能正是其中之一。他否认公司“无视机器人排除协议并就此撒谎”,但承认公司在数据处理和引用来源方面存在改进空间。

值得注意的是,路透社最近的一份报告指出,Perplexity AI并非唯一一家绕过robots.txt文件收集内容以训练大型语言模型的人工智能公司。然而,亚马逊的调查目前似乎仅针对Perplexity AI展开。

亚马逊发言人向《连线》杂志表示,AWS服务条款明确禁止客户使用其服务进行任何非法活动,且客户有责任遵守条款和所有适用法律。此次调查旨在确认Perplexity AI是否存在违规行为,并根据调查结果采取相应措施。

【来源:环球网】

THE END
广告、内容合作请点击这里 寻求合作
亚马逊
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表 的观点和立场。

相关热点

6月27日,据《商业内幕》援引内部消息及项目知情人士透露,科技巨头亚马逊正秘密研发一款新型人工智能聊天机器人,代号“Metis”。
业界
6月27日讯 美东时间周三,美国科技巨头亚马逊股价盘中大涨逾4%,使其市值首次突破2万亿美元。
业界
6 月 27 日消息,亚马逊公司市值首次突破 2 万亿美元门槛,继微软、苹果、英伟达、Alphabet(谷歌母公司)之后,成为第五家加入“2 万亿美元俱乐部”的美国公司。
业界
6 月 24 日消息,据彭博社报道,在周日举行的西班牙大奖赛上,一级方程式赛车 F1 计划与亚马逊联合推出一款新的人工智能“Statbot”数据机器人。
业界
6 月 12 日消息,杰夫・贝索斯再次夺回世界首富的宝座。据彭博社亿万富豪指数,贝索斯目前净资产为 2100 亿美元(IT之家备注:当前约 1.53 万亿元人民币),自今年年初以来,亚马逊股价上涨了近 25%,贝索...
业界

相关推荐

1
3
Baidu
map