Nguyên đơn trong vụ án Kadrey và cộng sự. so với Meta đã nộp đơn một chuyển động cáo buộc công ty cố tình sử dụng các tác phẩm có bản quyền để phát triển các mô hình AI của mình.
Các nguyên đơn, trong đó có tác giả Richard Kadrey, đã nộp đơn “Trả lời ủng hộ kiến nghị của nguyên đơn xin được phép nộp đơn khiếu nại hợp nhất được sửa đổi lần thứ ba” tại Tòa án quận Hoa Kỳ ở Quận phía Bắc California.
Hồ sơ cáo buộc Meta tải torrent một cách có hệ thống và tước bỏ thông tin quản lý bản quyền (CMI) khỏi các bộ dữ liệu vi phạm bản quyền, bao gồm các tác phẩm từ thư viện bóng tối khét tiếng LibGen.
Theo các tài liệu gần đây được đệ trình lên tòa án, bằng chứng cho thấy các hành vi có tính buộc tội cao liên quan đến các lãnh đạo cấp cao của Meta. Các nguyên đơn cáo buộc rằng Giám đốc điều hành Meta Mark Zuckerberg đã chấp thuận rõ ràng cho việc sử dụng bộ dữ liệu LibGen, bất chấp những lo ngại nội bộ mà các giám đốc điều hành AI của công ty đưa ra.
Một bản ghi nhớ vào tháng 12 năm 2024 từ các cuộc thảo luận nội bộ trên Meta đã thừa nhận LibGen là “một tập dữ liệu mà chúng tôi biết là vi phạm bản quyền”, với các cuộc tranh luận nảy sinh về những hậu quả về mặt đạo đức và pháp lý của việc sử dụng những tài liệu đó. Các tài liệu cũng tiết lộ rằng các kỹ sư hàng đầu ngần ngại tải torrent các bộ dữ liệu, với lý do lo ngại về việc sử dụng máy tính xách tay của công ty cho các hoạt động có khả năng bất hợp pháp.
Ngoài ra, thông tin liên lạc nội bộ cho thấy rằng sau khi có được tập dữ liệu LibGen, Meta đã loại bỏ CMI khỏi các tác phẩm có bản quyền có trong đó — một thông lệ mà các nguyên đơn nhấn mạnh là trọng tâm của các khiếu nại về vi phạm bản quyền.
Theo lời khai của Michael Clark – đại diện công ty của Meta – công ty đã triển khai các tập lệnh được thiết kế để xóa bất kỳ thông tin nào xác định các tác phẩm này là có bản quyền, bao gồm các từ khóa như “bản quyền”, “sự thừa nhận” hoặc các dòng thường được sử dụng trong các văn bản đó. Clark chứng thực rằng hoạt động này được thực hiện có chủ đích nhằm chuẩn bị tập dữ liệu cho việc đào tạo các mô hình AI Llama của Meta.
“Cảm thấy không ổn”
Các cáo buộc chống lại Meta đã vẽ nên bức chân dung của một công ty cố tình tham gia vào một kế hoạch vi phạm bản quyền rộng rãi được tạo điều kiện thông qua torrent.
Theo một chuỗi email được đưa vào làm vật trưng bày, các kỹ sư của Meta bày tỏ lo ngại về tính chất quang học của việc tải torrent các tập dữ liệu lậu từ bên trong Lĩnh vực công ty. Một kỹ sư lưu ý rằng “tải torrent từ một [Meta-owned] máy tính xách tay của công ty có vẻ không ổn,” nhưng bất chấp sự do dự, việc tải xuống và phân phối nhanh chóng – hay còn gọi là “gieo mầm” – dữ liệu lậu đã diễn ra.
Cố vấn pháp lý cho các nguyên đơn đã tuyên bố rằng tính đến cuối tháng 1 năm 2024, Meta “đã tải dữ liệu torrent (cả tải xuống và phân phối) từ LibGen”. Hơn nữa, hồ sơ cho thấy hàng trăm tài liệu liên quan ban đầu được Meta lấy được vài tháng trước nhưng đã bị giữ lại trong quá trình phát hiện ban đầu. Các nguyên đơn cho rằng việc tiết lộ chậm trễ này dẫn đến những nỗ lực thiếu thiện chí của Meta nhằm cản trở việc tiếp cận bằng chứng quan trọng.
Trong phiên điều trần vào ngày 17 tháng 12 năm 2024, bản thân Zuckerberg được cho là đã thừa nhận rằng những hoạt động như vậy sẽ gây ra “rất nhiều dấu hiệu đỏ” và tuyên bố rằng điều đó “có vẻ như là một điều tồi tệ”, mặc dù anh ấy đã đưa ra những phản hồi trực tiếp hạn chế về các hoạt động đào tạo AI rộng hơn của Meta.
Vụ việc này ban đầu bắt đầu như một vụ kiện vi phạm quyền sở hữu trí tuệ thay mặt cho các tác giả và nhà xuất bản khiếu nại các vi phạm liên quan đến việc sử dụng tài liệu của họ bằng AI. Tuy nhiên, các nguyên đơn hiện đang tìm cách bổ sung hai khiếu nại chính vào vụ kiện của họ: vi phạm Đạo luật bản quyền thiên niên kỷ kỹ thuật số (DMCA) và vi phạm Đạo luật gian lận và truy cập dữ liệu toàn diện của California (CDAFA).
Theo DMCA, các nguyên đơn khẳng định rằng Meta đã cố tình loại bỏ các biện pháp bảo vệ bản quyền để che giấu việc sử dụng trái phép các văn bản có bản quyền trong các mô hình Llama của mình.
Như được trích dẫn trong đơn khiếu nại, Meta bị cáo buộc đã loại bỏ CMI “để giảm khả năng các mô hình ghi nhớ dữ liệu này” và việc loại bỏ các chỉ báo quản lý quyền này khiến việc phát hiện hành vi vi phạm trở nên khó khăn hơn đối với chủ sở hữu bản quyền.
Các cáo buộc của CDAFA liên quan đến các phương pháp của Meta để lấy tập dữ liệu LibGen, bao gồm cả việc bị cáo buộc tham gia vào torrent để lấy tập dữ liệu có bản quyền mà không được phép. Tài liệu nội bộ cho thấy các kỹ sư của Meta đã thảo luận cởi mở những lo ngại rằng việc gieo mầm và tải torrent có thể được chứng minh là “không ổn về mặt pháp lý”.
Trường hợp meta có thể tác động đến luật pháp mới nổi xung quanh việc phát triển AI
Trọng tâm của cuộc chiến pháp lý ngày càng mở rộng này là mối lo ngại ngày càng tăng về sự giao thoa giữa luật bản quyền và AI.
Các nguyên đơn cho rằng việc tước bỏ các biện pháp bảo vệ bản quyền đối với các bộ dữ liệu văn bản sẽ từ chối bồi thường chính đáng cho chủ sở hữu bản quyền và cho phép Meta xây dựng các hệ thống AI như Llama trên sự tàn phá tài chính do nỗ lực sáng tạo của các tác giả và nhà xuất bản.
Thời điểm của những cáo buộc này xuất hiện trong bối cảnh toàn cầu ngày càng giám sát chặt chẽ xung quanh các công nghệ “AI sáng tạo”. Các công ty như OpenAI, Google và Meta đều bị chỉ trích về việc sử dụng dữ liệu có bản quyền để đào tạo mô hình của họ. Các tòa án trên khắp các khu vực pháp lý hiện đang vật lộn với tác động lâu dài của AI đối với việc quản lý quyền, với các vụ kiện mang tính bước ngoặt có thể được giải quyết ở cả Hoa Kỳ và Vương quốc Anh.
Trong trường hợp cụ thể này, các tòa án Hoa Kỳ đã thể hiện sự sẵn lòng ngày càng tăng trong việc nghe các khiếu nại về tác hại tiềm tàng của AI đối với các tiền lệ luật bản quyền đã có từ lâu. Nguyên đơn, trong đơn khởi kiện của mình, đã đề cập đến Intercept Media kiện OpenAImột quyết định gần đây từ New York, trong đó yêu cầu bồi thường DMCA tương tự đã được phép tiến hành.
Meta tiếp tục phủ nhận mọi cáo buộc trong vụ việc và vẫn chưa phản hồi công khai những tuyên bố lấy lời khai được báo cáo của Zuckerberg.
Cho dù nguyên đơn có thành công trong những sửa đổi này hay không thì các tác giả trên khắp thế giới vẫn phải đối mặt với mối lo lắng ngày càng tăng về cách xử lý các tác phẩm sáng tạo của họ trong bối cảnh AI. Trong bối cảnh luật bản quyền đang nỗ lực theo kịp những tiến bộ công nghệ, vụ việc này nhấn mạnh sự cần thiết phải có hướng dẫn rõ ràng hơn ở cấp độ quốc tế để bảo vệ cả người sáng tạo và người đổi mới.
Đối với Meta, những tuyên bố này cũng thể hiện rủi ro về danh tiếng. Khi AI trở thành trọng tâm trong chiến lược tương lai của họ, những cáo buộc về sự phụ thuộc vào các thư viện vi phạm bản quyền khó có thể giúp ích cho tham vọng duy trì vị trí dẫn đầu trong lĩnh vực này của họ.
Vụ việc diễn ra Kadrey và cộng sự. so với Meta có thể có những phân nhánh sâu rộng cho sự phát triển của các mô hình AI trong tương lai, có khả năng thiết lập các tiền lệ pháp lý ở Hoa Kỳ và hơn thế nữa.
(Ảnh chụp bởi Amy Syiek)
Xem thêm: Vương quốc Anh muốn chứng minh AI có thể hiện đại hóa các dịch vụ công một cách có trách nhiệm
Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra Triển lãm AI & Dữ liệu lớn diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị tự động hóa thông minh, BlockX, Tuần lễ Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.
Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp đây.