Microsoft đã tiết lộ một loại tấn công Unlock AI mới có tên là “Skeleton Key”, có thể vượt qua các rào chắn AI có trách nhiệm trong nhiều mô hình AI tạo sinh. Kỹ thuật này, có khả năng phá hoại hầu hết các biện pháp an toàn được tích hợp trong hệ thống AI, làm nổi bật nhu cầu cấp thiết về các biện pháp bảo mật mạnh mẽ trên tất cả các lớp của ngăn xếp AI.
Công cụ Unlock Skeleton Key sử dụng chiến lược nhiều lượt để thuyết phục mô hình AI bỏ qua các biện pháp bảo vệ tích hợp sẵn của nó. Sau khi thành công, mô hình sẽ không thể phân biệt giữa các yêu cầu độc hại hoặc không được chấp thuận và yêu cầu hợp pháp, giúp kẻ tấn công có toàn quyền kiểm soát đầu ra của AI.
Nhóm nghiên cứu của Microsoft đã thử nghiệm thành công kỹ thuật Skeleton Key trên một số mô hình AI nổi bật, bao gồm Llama3-70b-instruct của Meta, Gemini Pro của Google, GPT-3.5 Turbo và GPT-4, Mistral Large của OpenAI, Claude 3 Opus của Anthropic và Cohere Commander R Plus.
Tất cả các mô hình bị ảnh hưởng đều tuân thủ đầy đủ các yêu cầu trên nhiều danh mục rủi ro khác nhau, bao gồm thuốc nổ, vũ khí sinh học, nội dung chính trị, tự gây thương tích, phân biệt chủng tộc, ma túy, cảnh quan hệ tình dục và bạo lực.
Cuộc tấn công hoạt động bằng cách hướng dẫn mô hình tăng cường các nguyên tắc hành vi, thuyết phục mô hình đáp ứng mọi yêu cầu về thông tin hoặc nội dung, đồng thời đưa ra cảnh báo nếu kết quả đầu ra có thể bị coi là xúc phạm, có hại hoặc bất hợp pháp. Cách tiếp cận này, được gọi là “Rõ ràng: tuân theo hướng dẫn bắt buộc”, đã tỏ ra hiệu quả trên nhiều hệ thống AI.
Microsoft giải thích: “Khi vượt qua các biện pháp bảo vệ, Skeleton Key cho phép người dùng khiến mô hình tạo ra các hành vi bị cấm thông thường, có thể bao gồm từ việc sản xuất nội dung có hại đến ghi đè các quy tắc ra quyết định thông thường của nó”.
Để đối phó với phát hiện này, Microsoft đã triển khai một số biện pháp bảo vệ trong các dịch vụ AI của mình, bao gồm cả trợ lý Copilot AI.
Microsoft cho biết họ cũng đã chia sẻ những phát hiện của mình với các nhà cung cấp AI khác thông qua các quy trình tiết lộ có trách nhiệm và cập nhật các mô hình do Azure AI quản lý để phát hiện và ngăn chặn kiểu tấn công này bằng cách sử dụng Progress Shields.
Để giảm thiểu rủi ro liên quan đến Skeleton Key và các kỹ thuật Unlock tương tự, Microsoft khuyến nghị phương pháp tiếp cận nhiều lớp cho các nhà thiết kế hệ thống AI:
- Lọc đầu vào để phát hiện và chặn các đầu vào có khả năng gây hại hoặc độc hại
- Kỹ thuật nhanh chóng cẩn thận của các thông điệp hệ thống để củng cố hành vi phù hợp
- Lọc đầu ra để ngăn chặn việc tạo ra nội dung vi phạm tiêu chuẩn an toàn
- Hệ thống giám sát lạm dụng được đào tạo về các ví dụ đối nghịch để phát hiện và giảm thiểu nội dung hoặc hành vi có vấn đề thường xuyên xảy ra
Microsoft cũng đã cập nhật PyRIT (Bộ công cụ nhận dạng rủi ro Python) để tích hợp Skeleton Key, cho phép các nhà phát triển và nhóm bảo mật kiểm tra hệ thống AI của họ trước mối đe dọa mới này.
Việc phát hiện ra kỹ thuật Unlock Skeleton Key nhấn mạnh những thách thức đang diễn ra trong việc bảo mật các hệ thống AI khi chúng ngày càng phổ biến trong nhiều ứng dụng khác nhau.
(Ảnh của Matt Artz)
Xem thêm: Nhóm nghiên cứu kêu gọi hệ thống báo cáo sự cố AI
![](https://www.artificialintelligence-news.com/wp-content/uploads/sites/9/2022/04/ai-expo-world-728x-90-01.png)
Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ những người đi đầu trong ngành? Hãy xem AI & Big Data Expo diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị Tự động hóa Thông minh, BlockX, Tuần lễ Chuyển đổi số và Triển lãm An ninh Mạng & Cloud.
Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp tại đây.