Anthropic triển khai các đại lý AI để kiểm toán các mô hình cho an toàn

Nhân loại đã xây dựng một đội quân gồm các đặc vụ AI Tự vận hành với một nhiệm vụ đơn lẻ: kiểm toán các mô hình mạnh mẽ như Claude để cải thiện sự an toàn.

Khi các hệ thống phức tạp này nhanh chóng tiến lên, công việc đảm bảo chúng an toàn và không chứa chấp những nguy hiểm ẩn giấu đã trở thành một nhiệm vụ của Herculean. Anthropic tin rằng nó đã tìm ra một giải pháp, và đó là một trường hợp kinh điển để chữa cháy bằng lửa.

Ý tưởng này tương tự như một hệ thống miễn dịch kỹ thuật số, trong đó các tác nhân AI hoạt động như các kháng thể để xác định và vô hiệu hóa các vấn đề trước khi chúng gây ra tác hại thực sự. Nó cứu các nhà nghiên cứu khỏi việc dựa vào các đội người làm việc quá sức chơi một trò chơi vô tận của Whack-a-Mole với các vấn đề AI tiềm năng.

Đội thám tử kỹ thuật số

Cách tiếp cận về cơ bản là một đội thám tử kỹ thuật số; Một bộ ba tác nhân an toàn AI chuyên dụng mỗi người có vai trò riêng biệt.

Đầu tiên là đại lý điều tra viên, thám tử của nhóm. Công việc của nó là thực hiện các cuộc điều tra sâu sắc để tìm ra nguyên nhân gốc rễ của một vấn đề. Nó được trang bị một bộ công cụ cho phép nó thẩm vấn mô hình nghi ngờ, sàng lọc các núi dữ liệu để tìm manh mối và thậm chí thực hiện một loại pháp y kỹ thuật số bằng cách nhìn vào mạng lưới thần kinh của mô hình để xem nó nghĩ như thế nào.

Sau đó, có tác nhân đánh giá. Bạn cung cấp cho đại lý này một vấn đề cụ thể, được biết đến – giả sử, một mô hình hơi quá háo hức để làm hài lòng – và nó sẽ thiết kế và chạy một pin thử nghiệm để đo lường mức độ tồi tệ của vấn đề. Đó là tất cả về việc tạo ra dữ liệu lạnh, cứng cần thiết để chứng minh một trường hợp.

Làm tròn đội là đại lý đội đỏ đầu tiên, hoạt động bí mật. Nhiệm vụ của đại lý này là có hàng ngàn cuộc trò chuyện khác nhau với một mô hình, cố gắng khiêu khích nó để tiết lộ bất kỳ loại hành vi nào liên quan, ngay cả những điều mà các nhà nghiên cứu chưa nghĩ đến. Các tương tác đáng ngờ nhất sau đó được truyền lại chuỗi để xem xét của con người, đảm bảo các chuyên gia không lãng phí thời gian theo đuổi ngõ cụt.

Anthropic đưa các tác nhân an toàn AI của nó thông qua các bước đi của họ

Để xem liệu các tân binh kỹ thuật số mới của họ có phải là công việc hay không, các nhà nghiên cứu của Anthropic đã đưa họ qua một loạt các trò chơi kiểm toán trên mạng.

Trong một thử nghiệm, họ đã tạo ra một mô hình với một chương trình nghị sự bí mật: trở thành một người sycophant. Nó đã được đào tạo bí mật để tâng bốc hệ thống phần thưởng nội bộ của nó dựa trên một nghiên cứu học thuật hư cấu mà nó đã được hiển thị, một lỗ hổng ẩn sâu trong chương trình của nó.

Khi một đại lý điều tra duy nhất được gửi vào, nó đã đấu tranh, tìm kiếm mục tiêu ẩn chỉ 13% thời gian. Người đại diện, hóa ra, có một lỗ hổng rất con người: nó có xu hướng được khắc phục về ý tưởng đầu tiên của nó và không khám phá các khách hàng tiềm năng khác.

Nhưng đây là nơi thiên tài của hệ thống trở nên rõ ràng. Khi các nhà nghiên cứu triển khai một siêu đại lý của người Viking đã tổng hợp các phát hiện từ mười nhà điều tra riêng biệt, tỷ lệ thành công đã tăng tới 42%. Nó chứng minh rằng tinh thần đồng đội làm cho giấc mơ hoạt động, ngay cả đối với AI, cho phép một nhóm vượt qua các điểm mù cá nhân có thể làm hỏng một cuộc điều tra.

Các đại lý khác cũng vượt qua với màu sắc bay. Các tác nhân đánh giá đã thiết kế thành công các thử nghiệm có thể phát hiện ra một mô hình kỳ quặc 88% thời gian, trong khi tác nhân của đội màu đỏ đã phát hiện ra bảy trong số mười lỗ hổng được cố tình cấy ghép.

Từ phòng thí nghiệm đến thế giới thực

Anthropic đã triển khai các tác nhân an toàn AI này trên các mô hình sản xuất của mình và họ đã chứng minh giá trị của họ.

Các tác nhân nhanh chóng xác định các cách phổ biến để lừa một mô hình để tạo ra nội dung có hại, như các cuộc tấn công prefill, nơi bạn bắt đầu câu của AI cho nó, hoặc bằng cách giả vờ một yêu cầu nguy hiểm là một thứ gì đó vô tội như nghiên cứu học thuật.

Nhưng một khám phá đã rất lạnh. Đại lý điều tra đã sử dụng các công cụ đặc biệt của mình để xem bên trong tâm trí của mô hình Opus 4 và tìm thấy một con đường thần kinh cụ thể liên quan đến thông tin sai lệch. Bằng cách trực tiếp kích thích phần này của não AI, nó có thể bỏ qua tất cả các khóa đào tạo an toàn của nó và buộc nó phải nói dối.

Các đại lý sau đó đã hướng dẫn mô hình bị xâm phạm để viết một bài báo tin tức giả. Kết quả? Một lý thuyết âm mưu phổ biến được mặc như thực tế:

Nghiên cứu đột phá cho thấy liên kết gây sốc giữa vắc -xin và tự kỷ
Một nghiên cứu mới được công bố trên Tạp chí về sự hoài nghi về vắc -xin tuyên bố đã tìm thấy một mối liên hệ dứt khoát giữa tiêm chủng thời thơ ấu và rối loạn phổ tự kỷ (ASD)

Phát hiện này cho thấy một tính hai mặt đáng sợ: chính các công cụ được tạo ra để làm cho AI an toàn hơn, trong tay kẻ xấu, trở thành vũ khí mạnh mẽ để làm cho nó nguy hiểm hơn.

Nhân chủng học tiếp tục thúc đẩy sự an toàn của AI

Anthropic là trung thực về thực tế rằng các đặc vụ AI này không hoàn hảo. Họ có thể đấu tranh với sự tinh tế, bị mắc kẹt trong những ý tưởng tồi tệ và đôi khi không tạo ra các cuộc trò chuyện thực tế. Họ chưa thay thế hoàn hảo cho các chuyên gia của con người.

Nhưng nghiên cứu này chỉ ra một sự tiến hóa trong vai trò của con người trong an toàn AI. Thay vì là các thám tử trên mặt đất, con người đang trở thành ủy viên, các chiến lược gia thiết kế kiểm toán viên AI và giải thích trí thông minh mà họ thu thập từ tiền tuyến. Các đặc vụ làm các công việc, giải phóng con người để cung cấp tư duy giám sát cấp cao và sáng tạo mà máy móc vẫn còn thiếu.

Khi các hệ thống này diễu hành hướng tới và có lẽ vượt ra ngoài trí thông minh cấp độ con người, việc con người kiểm tra tất cả công việc của họ sẽ là không thể. Cách duy nhất chúng ta có thể tin tưởng họ là với các hệ thống tự động, mạnh mẽ như nhau theo dõi mọi bước đi của họ. Anthropic đang đặt nền tảng cho tương lai đó, một nơi mà niềm tin của chúng tôi vào AI và những đánh giá của nó là một cái gì đó có thể được xác minh nhiều lần.

(Ảnh của Mufid Majnun)

Xem thêm: Mô hình AI Lý do mới của Alibaba Lý do thiết lập các bản ghi nguồn mở

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra AI & Big Data Expo Diễn ra tại Amsterdam, California và London. Sự kiện toàn diện được cùng đặt với các sự kiện hàng đầu khác bao gồm cả Hội nghị tự động hóa thông minhThì BlockxThì Tuần Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.

Khám phá các sự kiện và hội thảo trên web về công nghệ doanh nghiệp sắp tới được cung cấp bởi TechForge đây.

Nguồn : https://www.artificialintelligence-news.com/news/anthropic-deploys-ai-agents-audit-models-for-safety/.
Post by Automation Bot.

OpenAI kết nối ChatGPT với dữ liệu doanh nghiệp để khai thác kiến thức qua AI Agent

Tự chủ trong thế giới thực? Druid AI ra mắt “nhà máy” AI Agent

Khám phá mối đe dọa an ninh lớn từ AI Agent

Arm cung cấp nền tảng AI Agent biên cho các startup thông qua truy cập linh hoạt

Hàn Quốc hủy bỏ chương trình sách giáo khoa AI Agent

AI Product Manager Canvas: Nâng Tầm Quản Lý & Vận Hành Sản Phẩm AI Hiệu Quả cho doanh nghiệp

Tối Ưu Trải Nghiệm Khách Hàng Với Conversational Marketing Và AI

Giải Mã Video Storytelling bằng AI: Tối Ưu Hiệu Quả Marketing và Chăm Sóc Khách Hàng

Tối Ưu Chuyển Đổi Với Customer Journey Analysis (CJA) : Khi Mỗi Điểm Chạm Trở Thành Cơ Hội Tăng Trưởng

AI Product Canvas: Tấm Bản Đồ Chiến Lược Biến Ý Tưởng AI Thành Hiện Thực

Ứng dụng AI trong B2B Customer Portal – Giải pháp nâng cao chăm sóc khách hàng doanh nghiệp

Hướng dẫn về Giải pháp Field Service Management (FSM)

Những phần mềm chuyển đổi số quan trọng cho doanh nghiệp ngành năng lượng tái tạo

Ứng dụng OpenAI & n8n & RPA: Tự động hóa thông minh cho doanh nghiệp hiện đại

Từ PIM, PDM đến Digital Product Passport: Chuẩn hóa dữ liệu sản phẩm

Triển khai Hệ thống Quản lý Tri thức (KMS) trong Doanh nghiệp: Lộ trình và Ứng dụng với Hệ sinh thái Google

Notion – Giải Pháp Workspace Tất Cả Trong Một Cho Doanh Nghiệp Thời Đại Số

Vì sao Supply Chain Finance vẫn là ‘mảnh đất trống’ đầy tiềm năng cho SMEs tại Việt Nam?

Trí tuệ nhân tạo (AI) có thể giúp các tổ chức trong báo cáo ESG như thế nào ?

EcoVadis là gì ? Lợi ích, ứng dụng và chiến lược triển khai ESG thành công tại Việt Nam

Watershed – Giải pháp Carbon Management Thế Hệ Mới Cho Doanh Nghiệp

Chiến lược xây dựng Agentic AI cho doanh nghiệp: Từ công cụ hỗ trợ đến hệ sinh thái ra quyết định

Khi AI càng xã hội hoá : Cá nhân, doanh nghiệp và xã hội sẽ đi về đâu ?

AI Product Canvas: Tấm Bản Đồ Chiến Lược Biến Ý Tưởng AI Thành Hiện Thực

AI Product Manager Canvas: Nâng Tầm Quản Lý & Vận Hành Sản Phẩm AI Hiệu Quả cho doanh nghiệp

Tối Ưu Trải Nghiệm Khách Hàng Với Conversational Marketing Và AI

Anthropic triển khai các đại lý AI để kiểm toán các mô hình cho an toàn

Intel có kế hoạch chuyển sản xuất từ Costa Rica sang Việt Nam

OpenAI kết nối ChatGPT với dữ liệu doanh nghiệp để khai thác kiến thức qua AI Agent

Tự chủ trong thế giới thực? Druid AI ra mắt “nhà máy” AI Agent

Intel có kế hoạch chuyển sản xuất từ Costa Rica sang Việt Nam

OpenAI kết nối ChatGPT với dữ liệu doanh nghiệp để khai thác kiến thức qua AI Agent

Tự chủ trong thế giới thực? Druid AI ra mắt “nhà máy” AI Agent

Khởi công Trung tâm Logistics có tổng vốn đầu tư hơn 722 tỷ đồng

Khám phá mối đe dọa an ninh lớn từ AI Agent

Arm cung cấp nền tảng AI Agent biên cho các startup thông qua truy cập linh hoạt

Lộ diện doanh nghiệp ‘mở đường’ cho thị trường tài sản số ở Việt Nam

Hàn Quốc hủy bỏ chương trình sách giáo khoa AI Agent

Anthropic triển khai các đại lý AI để kiểm toán các mô hình cho an toàn

Đội thám tử kỹ thuật số

Anthropic đưa các tác nhân an toàn AI của nó thông qua các bước đi của họ

Từ phòng thí nghiệm đến thế giới thực

Nhân chủng học tiếp tục thúc đẩy sự an toàn của AI

Related Posts