Reddit đang đưa nhân học ra tòa, cáo buộc công ty trí tuệ nhân tạo rút nội dung người dùng từ nền tảng mà không được phép và sử dụng nó để đào tạo các mô hình AI Claude. Các vụ kiệnđệ trình lên tòa án bang California, tuyên bố nhân học đã đưa ra hơn 100.000 yêu cầu trái phép cho các máy chủ của Reddit, ngay cả sau khi công khai tuyên bố rằng nó đã dừng lại.
Vụ việc được xây dựng xung quanh tuyên bố của Reddit rằng nhân học đã bỏ qua cả các hạn chế kỹ thuật và các điều khoản dịch vụ của nó. Theo đơn khiếu nại, các biện pháp bảo vệ được bỏ qua nhân học như tệp robot.txt của Site, được cho là để ngăn chặn sự tự động cạo. Reddit cũng cáo buộc Nhân học vi phạm quyền riêng tư của người dùng bằng cách thu thập và sử dụng các bài đăng cá nhân, bao gồm cả nội dung đã xóa cho mục đích thương mại.
Reddit cho biết họ cung cấp quyền truy cập có cấu trúc vào dữ liệu của mình thông qua các thỏa thuận cấp phép với các công ty như OpenAI và Google. Các giao dịch này bao gồm các điều kiện xung quanh việc sử dụng nội dung, bảo vệ quyền riêng tư và xóa dữ liệu. Theo nền tảng, Anthropic đã từ chối theo đuổi một thỏa thuận chính thức và thay vào đó đã loại bỏ Site trực tiếp, tránh phí cấp phép và bỏ qua các biện pháp bảo vệ người dùng trong quy trình.
Vụ kiện nhấn mạnh một bài nghiên cứu năm 2021 được đồng tác giả bởi CEO nhân học Dario Amodei, chỉ ra Reddit là một nguồn dữ liệu đào tạo phong phú cho các mô hình ngôn ngữ. Reddit cũng bao gồm các ví dụ trong đó Claude xuất hiện để tái tạo các bài đăng reddit gần như từ ngữ, thậm chí lặp lại các bài đăng đã bị người dùng xóa. Điều đó, công ty cho biết, cho thấy nhân học không thể đưa các lan can vào vị trí để tôn trọng quyền riêng tư hoặc nội dung của người dùng.
Reddit đang tìm kiếm các thiệt hại tài chính và lệnh của tòa án sẽ ngăn chặn nhân học sử dụng nội dung Reddit trong các phiên bản tương lai của các mô hình của nó.
Nhân chủng học đã trả lời, tuyên bố nó không đồng ý với các khiếu nại và kế hoạch tự vệ. Tuy nhiên, đây không phải là lần đầu tiên tập đoàn chịu áp lực pháp lý về cách nó thu thập dữ liệu đào tạo.
Vào tháng 8 năm 2024, một nhóm tác giả đã nộp Vụ kiện tập thể cáo buộc nhân học sử dụng công việc có bản quyền của họ mà không được phép. Họ tuyên bố rằng công ty đã đào tạo các mô hình của mình trên sách và các tài liệu bằng văn bản khác mà không có sự đồng ý của họ và sau đó yêu cầu bồi thường cho việc sử dụng nội dung của họ.
MỘT trường hợp tương tự Từ tháng 10 năm 2023 liên quan đến Universal Music Group và các nhà xuất bản khác. Họ đã kiện nhân học về những tuyên bố rằng Claude Chatbot của nó đang tái tạo lời bài hát có bản quyền. Các công ty âm nhạc lập luận rằng việc sử dụng này đã vi phạm quyền sở hữu trí tuệ của họ và yêu cầu tòa án chặn sử dụng thêm lời bài hát của họ.
Không giống như những vụ kiện đó, trường hợp của Reddit không tập trung vào bản quyền. Thay vào đó, nó tập trung vào vi phạm hợp đồng và cạnh tranh không công bằng. Lập luận của Reddit là dữ liệu được lấy từ Site của nó không chỉ là công khai mà nó bị chi phối bởi các thuật ngữ mà nhân học cố tình bỏ qua. Sự khác biệt đó có thể làm cho trường hợp trở thành một trường hợp quan trọng đối với các nền tảng khác lưu trữ nội dung người dùng nhưng muốn kiểm soát cách sử dụng trong các hệ thống AI thương mại.
Reddit cũng cáo buộc Nhân học về việc gây hiểu lầm cho công chúng. Vụ kiện chỉ ra các tuyên bố công khai từ nhân học tuyên bố rằng nó tôn trọng các quy tắc và giá trị quyền riêng tư của người dùng, mà Reddit nói đã bị mâu thuẫn bởi các hành động của công ty.
Về phần mình, bất chấp những gì tài liệu tiếp thị của nó nói, nhân học không quan tâm đến các quy tắc hoặc người dùng của Reddit, thì vụ kiện đã đọc. Đây là người tin rằng nó có quyền lấy bất kỳ nội dung nào mà nó muốn và sử dụng nội dung đó tuy nhiên nó mong muốn, với sự trừng phạt.
Sau khi vụ kiện được đệ trình, cổ phiếu của Reddit đã tăng gần 67%, một dấu hiệu cho thấy các nhà đầu tư ủng hộ động thái này. Kết quả của vụ án có thể đặt tiền lệ cho cách các công ty đạt được sự cân bằng giữa nội dung internet mở và quyền của người dùng và chủ sở hữu nội dung.
Khi nhiều công ty AI dựa vào khối lượng lớn dữ liệu Online, các câu hỏi về pháp lý và đạo đức xung quanh việc cạo sẽ trở nên khó khăn hơn để bỏ qua. Trường hợp của Reddit thêm vào danh sách các vụ kiện ngày càng tăng định hình cách phát triển AI tiếp theo này mở ra.
(Ảnh bởi Brett Jordan)
Xem thêm: Đạo đức trong tự động hóa: giải quyết sự thiên vị và tuân thủ trong AI

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra AI & Big Data Expo Diễn ra tại Amsterdam, California và London. Sự kiện toàn diện được cùng đặt với các sự kiện hàng đầu khác bao gồm cả Hội nghị tự động hóa thông minhThì BlockxThì Tuần Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.
Khám phá các sự kiện và hội thảo trên web về công nghệ doanh nghiệp sắp tới được cung cấp bởi TechForge đây.
Nguồn : https://www.artificialintelligence-news.com/news/reddit-sues-anthropic-for-scraping-user-data-to-train-ai/.
Post by Automation Bot.