Một phần quan trọng trong quy trình bảo vệ của OpenAI là “đội đỏ” – một phương pháp có cấu trúc sử dụng cả người tham gia là con người và AI để khám phá các rủi ro và lỗ hổng tiềm ẩn trong các hệ thống mới.
Trong lịch sử, OpenAI đã tham gia vào các nỗ lực của đội đỏ chủ yếu thông qua thử nghiệm thủ công, bao gồm việc các cá nhân tìm ra điểm yếu. Điều này đặc biệt được sử dụng trong quá trình thử nghiệm mô hình tạo hình ảnh DALL·E 2 của họ vào đầu năm 2022, trong đó các chuyên gia bên ngoài được mời để xác định các rủi ro tiềm ẩn. Kể từ đó, OpenAI đã mở rộng và cải tiến các phương pháp của mình, kết hợp các phương pháp tiếp cận tự động và hỗn hợp để đánh giá rủi ro toàn diện hơn.
OpenAI cho biết: “Chúng tôi lạc quan rằng chúng tôi có thể sử dụng AI mạnh hơn để mở rộng phạm vi phát hiện các lỗi mô hình”. Sự lạc quan này bắt nguồn từ ý tưởng rằng các quy trình tự động có thể giúp đánh giá các mô hình và huấn luyện chúng trở nên an toàn hơn bằng cách nhận ra các mẫu và lỗi trên quy mô lớn hơn.
Trong nỗ lực thúc đẩy tiến bộ mới nhất của mình, OpenAI đang chia sẻ hai tài liệu quan trọng về nhóm đỏ – một Whitepaper nêu chi tiết các chiến lược tương tác bên ngoài và một nghiên cứu giới thiệu một phương pháp mới để tự động hóa nhóm đỏ. Những đóng góp này nhằm mục đích củng cố quá trình và kết quả của việc hợp tác nhóm đỏ, cuối cùng dẫn đến việc triển khai AI an toàn hơn và có trách nhiệm hơn.
Khi AI tiếp tục phát triển, việc hiểu trải nghiệm người dùng và xác định các rủi ro như lạm dụng và sử dụng sai mục đích là rất quan trọng đối với các nhà nghiên cứu và nhà phát triển. Nhóm đỏ cung cấp một phương pháp chủ động để đánh giá những rủi ro này, đặc biệt khi được bổ sung bởi những hiểu biết sâu sắc từ nhiều chuyên gia độc lập bên ngoài. Cách tiếp cận này không chỉ giúp thiết lập các tiêu chuẩn mà còn tạo điều kiện nâng cao việc đánh giá an toàn theo thời gian.
Sự tiếp xúc của con người
OpenAI đã chia sẻ bốn bước cơ bản trong Whitepaper của họ, “Phương pháp tiếp cận của OpenAI đối với việc hợp tác nhóm đỏ bên ngoài cho các mô hình và hệ thống AI,” để thiết kế các chiến dịch nhóm đỏ hiệu quả:
- Thành phần đội đỏ: Việc lựa chọn thành viên trong nhóm dựa trên mục tiêu của chiến dịch. Hoạt động này thường liên quan đến các cá nhân có quan điểm đa dạng, chẳng hạn như chuyên môn về khoa học tự nhiên, an ninh mạng và chính trị khu vực, đảm bảo các đánh giá có phạm vi rộng cần thiết.
- Truy cập vào các phiên bản mô hình: Việc làm rõ phiên bản nào của mô hình mà đội đỏ sẽ truy cập có thể ảnh hưởng đến kết quả. Các mô hình ở giai đoạn đầu có thể bộc lộ những rủi ro cố hữu, trong khi các phiên bản phát triển hơn có thể giúp xác định những lỗ hổng trong các biện pháp giảm thiểu an toàn theo kế hoạch.
- Hướng dẫn và tài liệu: Tương tác hiệu quả trong các chiến dịch dựa vào hướng dẫn rõ ràng, giao diện phù hợp và tài liệu có cấu trúc. Điều này liên quan đến việc mô tả các mô hình, các biện pháp bảo vệ hiện có, các giao diện thử nghiệm và hướng dẫn ghi lại kết quả.
- Tổng hợp và đánh giá dữ liệu: Sau chiến dịch, dữ liệu được đánh giá để xác định xem các ví dụ có phù hợp với chính sách hiện tại hay yêu cầu sửa đổi hành vi mới hay không. Dữ liệu được đánh giá sau đó sẽ đưa ra những đánh giá có thể lặp lại để cập nhật trong tương lai.
Một ứng dụng gần đây của phương pháp này liên quan đến việc chuẩn bị OpenAI o1 gia đình của các mô hình để sử dụng công cộng—kiểm tra khả năng chống lạm dụng tiềm ẩn và đánh giá ứng dụng của chúng trên nhiều lĩnh vực khác nhau như lập kế hoạch tấn công trong thế giới thực, khoa học tự nhiên và nghiên cứu AI.
Đội đỏ tự động
Nhóm đỏ tự động tìm cách xác định các trường hợp AI có thể thất bại, đặc biệt là liên quan đến các vấn đề liên quan đến an toàn. Phương pháp này vượt trội về quy mô, tạo ra nhiều ví dụ về lỗi tiềm ẩn một cách nhanh chóng. Tuy nhiên, các phương pháp tiếp cận tự động truyền thống đã gặp khó khăn trong việc tạo ra các chiến lược tấn công thành công và đa dạng.
Nghiên cứu của OpenAI giới thiệu “Hợp tác màu đỏ đa dạng và hiệu quả với phần thưởng được tạo tự động và học tập củng cố nhiều bước,” một phương pháp khuyến khích sự đa dạng hơn trong các chiến lược tấn công trong khi vẫn duy trì hiệu quả.
Phương pháp này liên quan đến việc sử dụng AI để tạo ra các tình huống khác nhau, chẳng hạn như lời khuyên bất hợp pháp và đào tạo các mô hình nhóm đỏ để đánh giá các tình huống này một cách nghiêm túc. Quá trình này tôn vinh sự đa dạng và hiệu quả, thúc đẩy các đánh giá an toàn đa dạng và toàn diện hơn.
Bất chấp những lợi ích của nó, đội đỏ cũng có những hạn chế. Nó nắm bắt rủi ro tại một thời điểm cụ thể, rủi ro này có thể phát triển khi các mô hình AI phát triển. Ngoài ra, quy trình nhóm đỏ có thể vô tình tạo ra các mối nguy hiểm về thông tin, có khả năng cảnh báo các tác nhân độc hại về các lỗ hổng chưa được biết đến rộng rãi. Việc quản lý những rủi ro này đòi hỏi các quy trình nghiêm ngặt và việc tiết lộ thông tin có trách nhiệm.
Trong khi đội đỏ tiếp tục đóng vai trò then chốt trong việc phát hiện và đánh giá rủi ro, OpenAI thừa nhận sự cần thiết phải kết hợp các quan điểm rộng hơn của công chúng về các hành vi và chính sách lý tưởng của AI để đảm bảo công nghệ phù hợp với các giá trị và mong đợi của xã hội.
Xem thêm: EU giới thiệu dự thảo hướng dẫn quy định cho các mô hình AI
Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra Triển lãm AI & Dữ liệu lớn diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị tự động hóa thông minh, BlockX, Tuần lễ Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.
Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp đây.