英伟达被起诉:使用盗版书训练大语言模型

发布时间:2026-02-10 阅读量:327 来源: 发布人: bebop

导读:2024年初,多位知名作家联合对英伟达(NVIDIA)提起集体诉讼,指控其AI模型在训练过程中非法使用了来自“影子图书馆”如Anna's Archive和Books3的盗版图书。然而,面对这一版权侵权指控,英伟达于2026年1月29日正式向加州北区联邦法院提交动议,要求驳回该诉讼,并坚决否认曾使用任何受版权保护的盗版书籍进行模型训练。


据了解,这起诉讼的原告方是五位拥有多部已注册版权作品的作家。起诉书指控英伟达在使用NeMo Megatron框架开发其下一代大语言模型时,使用了包含原告版权作品的盗版图书馆的数据集,这些盗版图书馆也被称为“影子图书馆”。


NeMo Megatron是英伟达开发的一个用于构建、训练和部署大语言模型的端到端框架。


原告在美国加利福尼亚北区联邦地区法院提起诉讼。2026年1月31日,英伟达提交了正式动议,认为原告未能提供足够的证据证明该公司存在侵权行为,要求法院驳回原告起诉状,并主张其行为属于“合理使用”。法院已安排在 2026年4月2日举行听证会,审理英伟达提出的动议。


起诉书提供的内部记录显示,英伟达面临着OpenAI的竞争压力,为了在 2023 年开发者大会上展示其领先的技术,不惜通过“影子图书馆”获取数百万本盗版图书来训练其大语言模型。此外,起诉书还指出,英伟达向其客户提供工具和脚本,鼓励并协助他们下载盗版数据集 。


针对上述指控,英伟达在2026年1月29日提交的驳回动议中明确指出,原告未能提供任何具体、可验证的事实来证明其作品被实际下载、复制或用于任何AI模型的训练过程。公司强调,仅凭内部员工对某网站的“访问可能性”进行讨论,并不等于公司实施了版权侵权行为。


“讨论一个数据源的存在,与实际使用该数据源中的内容,是两个完全不同的概念。”英伟达在动议中写道,“版权法要求原告必须在起诉阶段就提供足以支撑‘复制行为’发生的事实依据,而非依赖推测或假设。”


此外,英伟达批评原告大量使用“基于信息与信念”(on information and belief)这类模糊表述,试图绕过起诉阶段应完成的基本举证义务,转而希望通过证据开示程序“倒查”是否存在侵权。公司指出,这种做法不符合美国联邦民事诉讼规则对版权侵权案件的基本要求。


目前,该案由加州北区联邦法院法官Jon Tigar审理。英伟达提出的驳回动议将于2026年4月2日举行听证。若法院支持该动议,原告或将面临败诉风险;若驳回请求被否决,案件将进入证据开示阶段,届时更多内部文档与技术细节可能被公开。


220x90
相关资讯
兆易创新发布新一代大容量SPI NAND Flash,助力智能设备存储升级!

4月2日,兆易创新宣布正式发布新一代SPI NAND Flash产品GD5F4GM7/GD5F8GM8。

标普全球警告:中东冲突或影响科技巨头6350亿美元的AI投资

标普全球Visible Alpha研究主管Melissa Otto指出,当前推动股市创纪录上涨的人工智能巨额投资正面临显著挑战,主要由于中东危机对全球经济增长前景与能源成本带来不确定性影响。

全新存储芯片面世,可在 700°C 高温下稳定运行!

南加州大学团队研发新型存储芯片,可在 700°C 高温下稳定运行,且未出现性能退化迹象。

突发!传高通、联发科合计减产约1500~2000万颗4nm移动处理器

联发科和高通已开始下修于晶圆代工厂的4nm投片量,显示手机链景气明显降温

全新EM8695 5G RedCap模块上架,适用于无线工业传感器、中程物联网、资产追踪等场景

EM8695 RedCap模块基于Qualcomm SDX35基频处理器,为无需传统5G全速率或复杂功能的应用提供精简型5G解决方案