Các nhà nghiên cứu từ Đại học Khoa học Tokyo (TUS) đã phát triển một phương pháp cho phép các mô hình AI quy mô lớn “quên” một cách có chọn lọc các lớp dữ liệu cụ thể.
Sự tiến bộ trong AI đã cung cấp các công cụ có khả năng cách mạng hóa nhiều lĩnh vực khác nhau, từ chăm sóc sức khỏe đến lái xe tự động. Tuy nhiên, khi công nghệ tiến bộ, sự phức tạp và những cân nhắc về đạo đức của nó cũng tăng theo.
Mô hình của các hệ thống AI được đào tạo trước trên quy mô lớn, chẳng hạn như ChatGPT của OpenAI và CLIP (Đào tạo trước về ngôn ngữ-hình ảnh tương phản), đã định hình lại những kỳ vọng đối với máy móc. Những mô hình có tính tổng quát cao này, có khả năng xử lý hàng loạt nhiệm vụ với độ chính xác nhất quán, đã được áp dụng rộng rãi cho cả mục đích sử dụng chuyên nghiệp và cá nhân.
Tuy nhiên, tính linh hoạt như vậy có giá rất cao. Việc đào tạo và vận hành các mô hình này đòi hỏi lượng năng lượng và thời gian khổng lồ, làm tăng mối lo ngại về tính bền vững, cũng như yêu cầu phần cứng tiên tiến đắt hơn đáng kể so với máy tính tiêu chuẩn. Tổng hợp những vấn đề này là xu hướng chung chung có thể cản trở hiệu quả của các mô hình AI khi áp dụng cho các nhiệm vụ cụ thể.
Ví dụ, “trong các ứng dụng thực tế, việc phân loại tất cả các loại lớp đối tượng hiếm khi được yêu cầu”, Phó giáo sư Go Irie, người đứng đầu nghiên cứu giải thích. “Ví dụ, trong một hệ thống lái xe tự động, việc nhận biết các loại đối tượng hạn chế như ô tô, người đi bộ và biển báo giao thông là đủ.
“Chúng ta không cần phải nhận biết thực phẩm, đồ đạc hay loài động vật. Việc giữ lại các lớp không cần được nhận dạng có thể làm giảm độ chính xác phân loại tổng thể cũng như gây ra những bất lợi trong vận hành như lãng phí tài nguyên tính toán và nguy cơ rò rỉ thông tin.”
Một giải pháp tiềm năng nằm ở các mô hình đào tạo để “quên” những thông tin dư thừa hoặc không cần thiết – hợp lý hóa quy trình của họ để chỉ tập trung vào những gì được yêu cầu. Mặc dù một số phương pháp hiện có đã đáp ứng được nhu cầu này nhưng chúng có xu hướng giả định cách tiếp cận “hộp trắng” trong đó người dùng có quyền truy cập vào các tham số và kiến trúc bên trong của mô hình. Tuy nhiên, đôi khi người dùng không nhận được khả năng hiển thị như vậy.
Các hệ thống AI “hộp đen”, phổ biến hơn do các hạn chế về thương mại và đạo đức, che giấu cơ chế bên trong của chúng, khiến các kỹ thuật quên truyền thống trở nên không thực tế. Để giải quyết khoảng trống này, nhóm nghiên cứu đã chuyển sang tối ưu hóa phi phái sinh—một cách tiếp cận giúp tránh sự phụ thuộc vào hoạt động nội bộ không thể tiếp cận của một mô hình.
Tiến lên qua sự lãng quên
Nghiên cứu dự kiến được trình bày tại hội nghị Hệ thống xử lý thông tin thần kinh (NeurIPS) vào năm 2024, giới thiệu một phương pháp được mệnh danh là “quên hộp đen”.
Quá trình này sửa đổi các lời nhắc đầu vào (hướng dẫn văn bản được cung cấp cho mô hình) theo các vòng lặp để khiến AI dần dần “quên” một số lớp nhất định. Phó giáo sư Irie đã hợp tác thực hiện nghiên cứu này với các đồng tác giả Yusuke Kuwana và Yuta Goto (cả hai đều đến từ TUS), cùng với Tiến sĩ Takashi Shibata từ Tập đoàn NEC.
Đối với các thí nghiệm của mình, các nhà nghiên cứu đã nhắm mục tiêu CLIP, một mô hình ngôn ngữ thị giác có khả năng phân loại hình ảnh. Phương pháp họ phát triển được xây dựng dựa trên Chiến lược tiến hóa thích ứng ma trận hiệp phương sai (CMA-ES), một thuật toán tiến hóa được thiết kế để tối ưu hóa các giải pháp theo từng bước. Trong nghiên cứu này, CMA-ES đã được khai thác để đánh giá và cải thiện các lời nhắc được cung cấp cho CLIP, cuối cùng là ngăn chặn khả năng phân loại các danh mục hình ảnh cụ thể của nó.
Khi dự án tiến triển, những thách thức nảy sinh. Các kỹ thuật tối ưu hóa hiện tại đã gặp khó khăn trong việc mở rộng quy mô cho số lượng lớn hơn các danh mục được nhắm mục tiêu, khiến nhóm phải nghĩ ra một chiến lược tham số hóa mới được gọi là “chia sẻ bối cảnh tiềm ẩn”.
Cách tiếp cận này phá vỡ bối cảnh tiềm ẩn – sự trình bày thông tin được tạo ra bởi các lời nhắc – thành các phần nhỏ hơn, dễ quản lý hơn. Bằng cách phân bổ các phần tử nhất định cho một Token (từ hoặc ký tự) trong khi sử dụng lại các phần tử khác trên nhiều Token, họ đã giảm đáng kể độ phức tạp của vấn đề. Điều quan trọng là điều này làm cho quá trình tính toán trở nên dễ dàng ngay cả đối với các ứng dụng dễ quên.
Thông qua các bài kiểm tra điểm chuẩn trên nhiều bộ dữ liệu phân loại hình ảnh, các nhà nghiên cứu đã xác thực tính hiệu quả của việc quên hộp đen—đạt được mục tiêu khiến CLIP “quên” khoảng 40% các lớp mục tiêu mà không cần truy cập trực tiếp vào kiến trúc bên trong của mô hình AI.
Nghiên cứu này đánh dấu nỗ lực thành công đầu tiên nhằm tạo ra sự quên có chọn lọc trong mô hình ngôn ngữ tầm nhìn hộp đen, cho thấy những kết quả đầy hứa hẹn.
Lợi ích của việc giúp mô hình AI quên dữ liệu
Ngoài sự khéo léo về mặt kỹ thuật, sự đổi mới này còn có tiềm năng đáng kể cho các ứng dụng trong thế giới thực, nơi độ chính xác của từng nhiệm vụ cụ thể là điều tối quan trọng.
Việc đơn giản hóa các mô hình cho các nhiệm vụ chuyên biệt có thể giúp chúng nhanh hơn, tiết kiệm tài nguyên hơn và có khả năng chạy trên các thiết bị kém mạnh mẽ hơn – đẩy nhanh việc áp dụng AI trong các lĩnh vực trước đây được cho là không khả thi.
Một cách sử dụng quan trọng khác nằm ở việc tạo hình ảnh, trong đó việc quên toàn bộ danh mục bối cảnh trực quan có thể ngăn các mô hình vô tình tạo ra nội dung không mong muốn hoặc có hại, có thể là tài liệu xúc phạm hoặc thông tin sai lệch.
Có lẽ quan trọng nhất, phương pháp này giải quyết một trong những vấn đề đạo đức lớn nhất của AI: quyền riêng tư.
Các mô hình AI, đặc biệt là các mô hình quy mô lớn, thường được đào tạo trên các bộ dữ liệu khổng lồ có thể vô tình chứa thông tin nhạy cảm hoặc lỗi thời. Yêu cầu xóa những dữ liệu đó—đặc biệt là trong bối cảnh luật ủng hộ “Quyền được lãng quên”—đặt ra những thách thức đáng kể.
Việc đào tạo lại toàn bộ mô hình để loại trừ dữ liệu có vấn đề là tốn kém và tốn thời gian, tuy nhiên rủi ro nếu không giải quyết dữ liệu có thể gây ra hậu quả sâu rộng.
Phó giáo sư Irie lưu ý: “Đào tạo lại một mô hình quy mô lớn tiêu tốn một lượng năng lượng khổng lồ. “’Quên có chọn lọc’, hay còn gọi là khả năng tự học của máy, có thể cung cấp một giải pháp hiệu quả cho vấn đề này.”
Những ứng dụng tập trung vào quyền riêng tư này đặc biệt phù hợp trong các ngành có tính rủi ro cao như chăm sóc sức khỏe và tài chính, nơi dữ liệu nhạy cảm là trọng tâm của hoạt động.
Khi cuộc đua toàn cầu nhằm thúc đẩy AI tăng tốc, phương pháp quên hộp đen của Đại học Khoa học Tokyo vạch ra một con đường quan trọng phía trước—không chỉ bằng cách làm cho công nghệ có khả năng thích ứng và hiệu quả hơn mà còn bằng cách bổ sung các biện pháp bảo vệ quan trọng cho người dùng.
Trong khi khả năng sử dụng sai vẫn còn, các phương pháp như quên có chọn lọc chứng tỏ rằng các nhà nghiên cứu đang chủ động giải quyết cả những thách thức về đạo đức và thực tiễn.
Xem thêm: Tại sao QwQ-32B-Preview là AI lý tưởng để xem
Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra Triển lãm AI & Dữ liệu lớn diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị tự động hóa thông minh, BlockX, Tuần lễ Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.
Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp đây.