Microsoft trình bày chi tiết về việc Unlock AI 'Skeleton Key'

Bài Liên quan

Đơn vị xử lý ngôn ngữ (LPU): Mở đường cho AI giọng nói tiên tiến trong các trung tâm liên lạc

5 Tháng Bảy, 2024

Công ty có giá trị nhất thế giới đang bị Pháp chỉ trích vì luật chống độc quyền

4 Tháng Bảy, 2024

AI đang chuyển đổi tiếp thị kỹ thuật số như thế nào: xu hướng và thông tin chi tiết năm 2024

4 Tháng Bảy, 2024

Hoa Kỳ có kế hoạch thu hẹp khoảng cách nhân tài như thế nào

2 Tháng Bảy, 2024

Microsoft đã tiết lộ một loại tấn công Unlock AI mới có tên là “Skeleton Key”, có thể vượt qua các rào chắn AI có trách nhiệm trong nhiều mô hình AI tạo sinh. Kỹ thuật này, có khả năng phá hoại hầu hết các biện pháp an toàn được tích hợp trong hệ thống AI, làm nổi bật nhu cầu cấp thiết về các biện pháp bảo mật mạnh mẽ trên tất cả các lớp của ngăn xếp AI.

Công cụ Unlock Skeleton Key sử dụng chiến lược nhiều lượt để thuyết phục mô hình AI bỏ qua các biện pháp bảo vệ tích hợp sẵn của nó. Sau khi thành công, mô hình sẽ không thể phân biệt giữa các yêu cầu độc hại hoặc không được chấp thuận và yêu cầu hợp pháp, giúp kẻ tấn công có toàn quyền kiểm soát đầu ra của AI.

Nhóm nghiên cứu của Microsoft đã thử nghiệm thành công kỹ thuật Skeleton Key trên một số mô hình AI nổi bật, bao gồm Llama3-70b-instruct của Meta, Gemini Pro của Google, GPT-3.5 Turbo và GPT-4, Mistral Large của OpenAI, Claude 3 Opus của Anthropic và Cohere Commander R Plus.

Tất cả các mô hình bị ảnh hưởng đều tuân thủ đầy đủ các yêu cầu trên nhiều danh mục rủi ro khác nhau, bao gồm thuốc nổ, vũ khí sinh học, nội dung chính trị, tự gây thương tích, phân biệt chủng tộc, ma túy, cảnh quan hệ tình dục và bạo lực.

Cuộc tấn công hoạt động bằng cách hướng dẫn mô hình tăng cường các nguyên tắc hành vi, thuyết phục mô hình đáp ứng mọi yêu cầu về thông tin hoặc nội dung, đồng thời đưa ra cảnh báo nếu kết quả đầu ra có thể bị coi là xúc phạm, có hại hoặc bất hợp pháp. Cách tiếp cận này, được gọi là “Rõ ràng: tuân theo hướng dẫn bắt buộc”, đã tỏ ra hiệu quả trên nhiều hệ thống AI.

Microsoft giải thích: “Khi vượt qua các biện pháp bảo vệ, Skeleton Key cho phép người dùng khiến mô hình tạo ra các hành vi bị cấm thông thường, có thể bao gồm từ việc sản xuất nội dung có hại đến ghi đè các quy tắc ra quyết định thông thường của nó”.

Để đối phó với phát hiện này, Microsoft đã triển khai một số biện pháp bảo vệ trong các dịch vụ AI của mình, bao gồm cả trợ lý Copilot AI.

Microsoft cho biết họ cũng đã chia sẻ những phát hiện của mình với các nhà cung cấp AI khác thông qua các quy trình tiết lộ có trách nhiệm và cập nhật các mô hình do Azure AI quản lý để phát hiện và ngăn chặn kiểu tấn công này bằng cách sử dụng Progress Shields.

Để giảm thiểu rủi ro liên quan đến Skeleton Key và các kỹ thuật Unlock tương tự, Microsoft khuyến nghị phương pháp tiếp cận nhiều lớp cho các nhà thiết kế hệ thống AI:

Lọc đầu vào để phát hiện và chặn các đầu vào có khả năng gây hại hoặc độc hại
Kỹ thuật nhanh chóng cẩn thận của các thông điệp hệ thống để củng cố hành vi phù hợp
Lọc đầu ra để ngăn chặn việc tạo ra nội dung vi phạm tiêu chuẩn an toàn
Hệ thống giám sát lạm dụng được đào tạo về các ví dụ đối nghịch để phát hiện và giảm thiểu nội dung hoặc hành vi có vấn đề thường xuyên xảy ra

Microsoft cũng đã cập nhật PyRIT (Bộ công cụ nhận dạng rủi ro Python) để tích hợp Skeleton Key, cho phép các nhà phát triển và nhóm bảo mật kiểm tra hệ thống AI của họ trước mối đe dọa mới này.

Việc phát hiện ra kỹ thuật Unlock Skeleton Key nhấn mạnh những thách thức đang diễn ra trong việc bảo mật các hệ thống AI khi chúng ngày càng phổ biến trong nhiều ứng dụng khác nhau.

(Ảnh của Matt Artz)

Xem thêm: Nhóm nghiên cứu kêu gọi hệ thống báo cáo sự cố AI

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ những người đi đầu trong ngành? Hãy xem AI & Big Data Expo diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị Tự động hóa Thông minh, BlockX, Tuần lễ Chuyển đổi số và Triển lãm An ninh Mạng & Cloud.

Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp tại đây.

Thẻ: ai, trí tuệ nhân tạo, an ninh mạng, an ninh mạng, khai thác, Unlock, microsoft, kỹ thuật nhanh chóng, bảo mật, khóa toàn vẹn, lỗ hổng

www.artificialintelligence-news.com

Tags: AI An ninh mạng Automation bảo vệ bẻ khóa Chìa khóa xương khai thác kỹ thuật nhanh chóng Microsoft tính dễ bị tổn thương trí tuệ nhân tạo

Microsoft trình bày chi tiết về việc Unlock AI ‘Skeleton Key’

Bài Liên quan

Ngân hàng Hà Lan sẽ bơm 30 triệu đô la vào năng lượng tái tạo ở Đông Nam Á

ICMA, ISDA, GFMA tham gia dự án Token hoá Project Guardian

Related Posts

Bài đọc nhiều

Chuyên mục

Bài mới nhất

Case Studies

Welcome Back!

Retrieve your password