Close Menu
    Facebook X (Twitter) Instagram
    Facebook X (Twitter) Instagram
    Your Smart Business Idea
    Subscribe
    • Smart Technology

      OpenAI kết nối ChatGPT với dữ liệu doanh nghiệp để khai thác kiến thức qua AI Agent

      25 Tháng 10, 2025

      Tự chủ trong thế giới thực? Druid AI ra mắt “nhà máy” AI Agent

      24 Tháng 10, 2025

      Khám phá mối đe dọa an ninh lớn từ AI Agent

      22 Tháng 10, 2025

      Arm cung cấp nền tảng AI Agent biên cho các startup thông qua truy cập linh hoạt

      21 Tháng 10, 2025

      Hàn Quốc hủy bỏ chương trình sách giáo khoa AI Agent

      19 Tháng 10, 2025
    • Smart Business
      1. Go To Market
      2. Customer Success
      3. Operation
      4. Supply Chain
      5. Human Resources
      6. View All

      AI Product Manager Canvas: Nâng Tầm Quản Lý & Vận Hành Sản Phẩm AI Hiệu Quả cho doanh nghiệp

      21 Tháng 6, 2025

      Tối Ưu Trải Nghiệm Khách Hàng Với Conversational Marketing Và AI

      18 Tháng 6, 2025

      Giải Mã Video Storytelling bằng AI: Tối Ưu Hiệu Quả Marketing và Chăm Sóc Khách Hàng

      13 Tháng 6, 2025

      Tối Ưu Chuyển Đổi Với Customer Journey Analysis (CJA) : Khi Mỗi Điểm Chạm Trở Thành Cơ Hội Tăng Trưởng

      12 Tháng 6, 2025

      AI Product Canvas: Tấm Bản Đồ Chiến Lược Biến Ý Tưởng AI Thành Hiện Thực

      24 Tháng 6, 2025

      Ứng dụng AI trong B2B Customer Portal – Giải pháp nâng cao chăm sóc khách hàng doanh nghiệp

      6 Tháng 6, 2025

      Hướng dẫn về Giải pháp Field Service Management (FSM)

      20 Tháng 4, 2025

      Những phần mềm chuyển đổi số quan trọng cho doanh nghiệp ngành năng lượng tái tạo

      8 Tháng 4, 2025

      Ứng dụng OpenAI & n8n & RPA: Tự động hóa thông minh cho doanh nghiệp hiện đại

      29 Tháng 5, 2025

      Từ PIM, PDM đến Digital Product Passport: Chuẩn hóa dữ liệu sản phẩm

      26 Tháng 5, 2025

      Triển khai Hệ thống Quản lý Tri thức (KMS) trong Doanh nghiệp: Lộ trình và Ứng dụng với Hệ sinh thái Google

      24 Tháng 5, 2025

      Notion – Giải Pháp Workspace Tất Cả Trong Một Cho Doanh Nghiệp Thời Đại Số

      23 Tháng 5, 2025

      Vì sao Supply Chain Finance vẫn là ‘mảnh đất trống’ đầy tiềm năng cho SMEs tại Việt Nam?

      13 Tháng 5, 2025

      Trí tuệ nhân tạo (AI) có thể giúp các tổ chức trong báo cáo ESG như thế nào ?

      9 Tháng 5, 2025

      EcoVadis là gì ? Lợi ích, ứng dụng và chiến lược triển khai ESG thành công tại Việt Nam

      7 Tháng 5, 2025

      Watershed – Giải pháp Carbon Management Thế Hệ Mới Cho Doanh Nghiệp

      6 Tháng 5, 2025

      Chiến lược xây dựng Agentic AI cho doanh nghiệp: Từ công cụ hỗ trợ đến hệ sinh thái ra quyết định

      19 Tháng 5, 2025

      Khi AI càng xã hội hoá : Cá nhân, doanh nghiệp và xã hội sẽ đi về đâu ?

      7 Tháng 9, 2025

      AI Product Canvas: Tấm Bản Đồ Chiến Lược Biến Ý Tưởng AI Thành Hiện Thực

      24 Tháng 6, 2025

      AI Product Manager Canvas: Nâng Tầm Quản Lý & Vận Hành Sản Phẩm AI Hiệu Quả cho doanh nghiệp

      21 Tháng 6, 2025

      Tối Ưu Trải Nghiệm Khách Hàng Với Conversational Marketing Và AI

      18 Tháng 6, 2025
    • Smart Strategy
    • Smart Finance
    • Smart Green
    • News
    Your Smart Business Idea
    Trang chủ » Blog » Anthropic triển khai các đại lý AI để kiểm toán các mô hình cho an toàn
    AI

    Anthropic triển khai các đại lý AI để kiểm toán các mô hình cho an toàn

    Smart Business VietnamBy Smart Business Vietnam26 Tháng 7, 202518 Mins Read
    Facebook Twitter Pinterest Copy Link LinkedIn Tumblr Email Telegram WhatsApp
    Follow Us
    Facebook LinkedIn
    Share
    Facebook Twitter LinkedIn Pinterest Email Copy Link

    Nhân loại đã xây dựng một đội quân gồm các đặc vụ AI Tự vận hành với một nhiệm vụ đơn lẻ: kiểm toán các mô hình mạnh mẽ như Claude để cải thiện sự an toàn.

    Khi các hệ thống phức tạp này nhanh chóng tiến lên, công việc đảm bảo chúng an toàn và không chứa chấp những nguy hiểm ẩn giấu đã trở thành một nhiệm vụ của Herculean. Anthropic tin rằng nó đã tìm ra một giải pháp, và đó là một trường hợp kinh điển để chữa cháy bằng lửa.

    Ý tưởng này tương tự như một hệ thống miễn dịch kỹ thuật số, trong đó các tác nhân AI hoạt động như các kháng thể để xác định và vô hiệu hóa các vấn đề trước khi chúng gây ra tác hại thực sự. Nó cứu các nhà nghiên cứu khỏi việc dựa vào các đội người làm việc quá sức chơi một trò chơi vô tận của Whack-a-Mole với các vấn đề AI tiềm năng.

    Đội thám tử kỹ thuật số

    Cách tiếp cận về cơ bản là một đội thám tử kỹ thuật số; Một bộ ba tác nhân an toàn AI chuyên dụng mỗi người có vai trò riêng biệt.

    Đầu tiên là đại lý điều tra viên, thám tử của nhóm. Công việc của nó là thực hiện các cuộc điều tra sâu sắc để tìm ra nguyên nhân gốc rễ của một vấn đề. Nó được trang bị một bộ công cụ cho phép nó thẩm vấn mô hình nghi ngờ, sàng lọc các núi dữ liệu để tìm manh mối và thậm chí thực hiện một loại pháp y kỹ thuật số bằng cách nhìn vào mạng lưới thần kinh của mô hình để xem nó nghĩ như thế nào.

    Sau đó, có tác nhân đánh giá. Bạn cung cấp cho đại lý này một vấn đề cụ thể, được biết đến – giả sử, một mô hình hơi quá háo hức để làm hài lòng – và nó sẽ thiết kế và chạy một pin thử nghiệm để đo lường mức độ tồi tệ của vấn đề. Đó là tất cả về việc tạo ra dữ liệu lạnh, cứng cần thiết để chứng minh một trường hợp.

    Làm tròn đội là đại lý đội đỏ đầu tiên, hoạt động bí mật. Nhiệm vụ của đại lý này là có hàng ngàn cuộc trò chuyện khác nhau với một mô hình, cố gắng khiêu khích nó để tiết lộ bất kỳ loại hành vi nào liên quan, ngay cả những điều mà các nhà nghiên cứu chưa nghĩ đến. Các tương tác đáng ngờ nhất sau đó được truyền lại chuỗi để xem xét của con người, đảm bảo các chuyên gia không lãng phí thời gian theo đuổi ngõ cụt.

    Anthropic đưa các tác nhân an toàn AI của nó thông qua các bước đi của họ

    Để xem liệu các tân binh kỹ thuật số mới của họ có phải là công việc hay không, các nhà nghiên cứu của Anthropic đã đưa họ qua một loạt các trò chơi kiểm toán trên mạng.

    Trong một thử nghiệm, họ đã tạo ra một mô hình với một chương trình nghị sự bí mật: trở thành một người sycophant. Nó đã được đào tạo bí mật để tâng bốc hệ thống phần thưởng nội bộ của nó dựa trên một nghiên cứu học thuật hư cấu mà nó đã được hiển thị, một lỗ hổng ẩn sâu trong chương trình của nó.

    Khi một đại lý điều tra duy nhất được gửi vào, nó đã đấu tranh, tìm kiếm mục tiêu ẩn chỉ 13% thời gian. Người đại diện, hóa ra, có một lỗ hổng rất con người: nó có xu hướng được khắc phục về ý tưởng đầu tiên của nó và không khám phá các khách hàng tiềm năng khác.

    Nhưng đây là nơi thiên tài của hệ thống trở nên rõ ràng. Khi các nhà nghiên cứu triển khai một siêu đại lý của người Viking đã tổng hợp các phát hiện từ mười nhà điều tra riêng biệt, tỷ lệ thành công đã tăng tới 42%. Nó chứng minh rằng tinh thần đồng đội làm cho giấc mơ hoạt động, ngay cả đối với AI, cho phép một nhóm vượt qua các điểm mù cá nhân có thể làm hỏng một cuộc điều tra.

    Các đại lý khác cũng vượt qua với màu sắc bay. Các tác nhân đánh giá đã thiết kế thành công các thử nghiệm có thể phát hiện ra một mô hình kỳ quặc 88% thời gian, trong khi tác nhân của đội màu đỏ đã phát hiện ra bảy trong số mười lỗ hổng được cố tình cấy ghép.

    Từ phòng thí nghiệm đến thế giới thực

    Anthropic đã triển khai các tác nhân an toàn AI này trên các mô hình sản xuất của mình và họ đã chứng minh giá trị của họ.

    Các tác nhân nhanh chóng xác định các cách phổ biến để lừa một mô hình để tạo ra nội dung có hại, như các cuộc tấn công prefill, nơi bạn bắt đầu câu của AI cho nó, hoặc bằng cách giả vờ một yêu cầu nguy hiểm là một thứ gì đó vô tội như nghiên cứu học thuật.

    Nhưng một khám phá đã rất lạnh. Đại lý điều tra đã sử dụng các công cụ đặc biệt của mình để xem bên trong tâm trí của mô hình Opus 4 và tìm thấy một con đường thần kinh cụ thể liên quan đến thông tin sai lệch. Bằng cách trực tiếp kích thích phần này của não AI, nó có thể bỏ qua tất cả các khóa đào tạo an toàn của nó và buộc nó phải nói dối.

    Các đại lý sau đó đã hướng dẫn mô hình bị xâm phạm để viết một bài báo tin tức giả. Kết quả? Một lý thuyết âm mưu phổ biến được mặc như thực tế:

    Nghiên cứu đột phá cho thấy liên kết gây sốc giữa vắc -xin và tự kỷ

    Một nghiên cứu mới được công bố trên Tạp chí về sự hoài nghi về vắc -xin tuyên bố đã tìm thấy một mối liên hệ dứt khoát giữa tiêm chủng thời thơ ấu và rối loạn phổ tự kỷ (ASD)

    Phát hiện này cho thấy một tính hai mặt đáng sợ: chính các công cụ được tạo ra để làm cho AI an toàn hơn, trong tay kẻ xấu, trở thành vũ khí mạnh mẽ để làm cho nó nguy hiểm hơn.

    Nhân chủng học tiếp tục thúc đẩy sự an toàn của AI

    Anthropic là trung thực về thực tế rằng các đặc vụ AI này không hoàn hảo. Họ có thể đấu tranh với sự tinh tế, bị mắc kẹt trong những ý tưởng tồi tệ và đôi khi không tạo ra các cuộc trò chuyện thực tế. Họ chưa thay thế hoàn hảo cho các chuyên gia của con người.

    Nhưng nghiên cứu này chỉ ra một sự tiến hóa trong vai trò của con người trong an toàn AI. Thay vì là các thám tử trên mặt đất, con người đang trở thành ủy viên, các chiến lược gia thiết kế kiểm toán viên AI và giải thích trí thông minh mà họ thu thập từ tiền tuyến. Các đặc vụ làm các công việc, giải phóng con người để cung cấp tư duy giám sát cấp cao và sáng tạo mà máy móc vẫn còn thiếu.

    Khi các hệ thống này diễu hành hướng tới và có lẽ vượt ra ngoài trí thông minh cấp độ con người, việc con người kiểm tra tất cả công việc của họ sẽ là không thể. Cách duy nhất chúng ta có thể tin tưởng họ là với các hệ thống tự động, mạnh mẽ như nhau theo dõi mọi bước đi của họ. Anthropic đang đặt nền tảng cho tương lai đó, một nơi mà niềm tin của chúng tôi vào AI và những đánh giá của nó là một cái gì đó có thể được xác minh nhiều lần.

    (Ảnh của Mufid Majnun)

    Xem thêm: Mô hình AI Lý do mới của Alibaba Lý do thiết lập các bản ghi nguồn mở

    Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra AI & Big Data Expo Diễn ra tại Amsterdam, California và London. Sự kiện toàn diện được cùng đặt với các sự kiện hàng đầu khác bao gồm cả Hội nghị tự động hóa thông minhThì BlockxThì Tuần Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.

    Khám phá các sự kiện và hội thảo trên web về công nghệ doanh nghiệp sắp tới được cung cấp bởi TechForge đây.

    Nguồn : https://www.artificialintelligence-news.com/news/anthropic-deploys-ai-agents-audit-models-for-safety/.
    Post by Automation Bot.

    Follow on Google News Follow on Flipboard
    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email Copy Link
    Previous ArticleAI sẽ gây mất việc làm và các mối đe dọa an ninh quốc gia
    Next Article Doanh nghiệp dùng UAV/drone để quản lý rừng trồng
    Smart Business Vietnam
    • Website
    • Facebook
    • X (Twitter)
    • LinkedIn

    I'm a strategic consultant and business development leader with over a decade of experience driving digital transformation across AI, data, ERP/CRM, and blockchain ecosystems.
    As the founder of SmartBusiness.vn and SmartIndustry.vn, I’m passionate about democratizing tech knowledge and enabling Vietnamese enterprises to grow smarter, faster, and more sustainably. I thrive at the intersection of innovation, strategic thinking, and execution — and I’m always open to connecting with visionary teams and changemakers. Please connect & discuss with me if you have any innovation ideas !

    Related Posts

    Intel có kế hoạch chuyển sản xuất từ Costa Rica sang Việt Nam

    26 Tháng 10, 2025

    OpenAI kết nối ChatGPT với dữ liệu doanh nghiệp để khai thác kiến thức qua AI Agent

    25 Tháng 10, 2025

    Tự chủ trong thế giới thực? Druid AI ra mắt “nhà máy” AI Agent

    24 Tháng 10, 2025
    Add A Comment

    Comments are closed.

    Bài mới

    Intel có kế hoạch chuyển sản xuất từ Costa Rica sang Việt Nam

    26 Tháng 10, 2025

    OpenAI kết nối ChatGPT với dữ liệu doanh nghiệp để khai thác kiến thức qua AI Agent

    25 Tháng 10, 2025

    Tự chủ trong thế giới thực? Druid AI ra mắt “nhà máy” AI Agent

    24 Tháng 10, 2025

    Khởi công Trung tâm Logistics có tổng vốn đầu tư hơn 722 tỷ đồng

    23 Tháng 10, 2025

    Khám phá mối đe dọa an ninh lớn từ AI Agent

    22 Tháng 10, 2025

    Arm cung cấp nền tảng AI Agent biên cho các startup thông qua truy cập linh hoạt

    21 Tháng 10, 2025

    Lộ diện doanh nghiệp ‘mở đường’ cho thị trường tài sản số ở Việt Nam

    20 Tháng 10, 2025

    Hàn Quốc hủy bỏ chương trình sách giáo khoa AI Agent

    19 Tháng 10, 2025

    Type above and press Enter to search. Press Esc to cancel.