近日,Meta公司因其使用数千本盗版书籍训练人工智能模型的行为而陷入了版权侵权的诉讼之中。据报道,Meta使用了包含19.5万本图书、总容量近37GB的文本数据集“Books3”来训练其LLAM 1和LLAM 2模型。尽管该公司承认了使用了这一数据集,但拒绝向其创作者支付相应的补偿金。
“Books3”数据集由AI研究者Shawn Presser于2020年创建,旨在为改进机器学习算法提供更好的数据源。然而,在这个数据集中包含了大量从盗版网站Bibliotik爬取的受版权保护作品。因此,Meta在使用这个数据集进行训练时面临着法律风险。
值得注意的是,今年已经有几位科技公司因在构建生成式AI模型时侵犯艺术家、作者和其他内容创作者的版权而受到指责。此外,欧盟正在制定关于人工智能的新临时规则,这些规则可能会迫使公司披露用于训练模型的数据集。这无疑将使他们面临更大的法律风险。
【来源:中关村在线】