Your Smart Business Idea
  • Login
  • Smart Business
    • Go To Market
    • Customer Success
    • Operation
    • Supply Chain
    • Human Resources
  • Smart Strategy
  • Smart Finance
  • Smart Green
  • Smart Technology
  • News
No Result
View All Result
  • Smart Business
    • Go To Market
    • Customer Success
    • Operation
    • Supply Chain
    • Human Resources
  • Smart Strategy
  • Smart Finance
  • Smart Green
  • Smart Technology
  • News
No Result
View All Result
Your Smart Business Idea
No Result
View All Result
Home Smart Technology AI

Anthropic triển khai các đại lý AI để kiểm toán các mô hình cho an toàn

Smart Business Vietnam by Smart Business Vietnam
26 Tháng 7, 2025
in AI, Business News
5
SHARES
100
VIEWS

Nhân loại đã xây dựng một đội quân gồm các đặc vụ AI Tự vận hành với một nhiệm vụ đơn lẻ: kiểm toán các mô hình mạnh mẽ như Claude để cải thiện sự an toàn.

Khi các hệ thống phức tạp này nhanh chóng tiến lên, công việc đảm bảo chúng an toàn và không chứa chấp những nguy hiểm ẩn giấu đã trở thành một nhiệm vụ của Herculean. Anthropic tin rằng nó đã tìm ra một giải pháp, và đó là một trường hợp kinh điển để chữa cháy bằng lửa.

Ý tưởng này tương tự như một hệ thống miễn dịch kỹ thuật số, trong đó các tác nhân AI hoạt động như các kháng thể để xác định và vô hiệu hóa các vấn đề trước khi chúng gây ra tác hại thực sự. Nó cứu các nhà nghiên cứu khỏi việc dựa vào các đội người làm việc quá sức chơi một trò chơi vô tận của Whack-a-Mole với các vấn đề AI tiềm năng.

Đội thám tử kỹ thuật số

Cách tiếp cận về cơ bản là một đội thám tử kỹ thuật số; Một bộ ba tác nhân an toàn AI chuyên dụng mỗi người có vai trò riêng biệt.

Đầu tiên là đại lý điều tra viên, thám tử của nhóm. Công việc của nó là thực hiện các cuộc điều tra sâu sắc để tìm ra nguyên nhân gốc rễ của một vấn đề. Nó được trang bị một bộ công cụ cho phép nó thẩm vấn mô hình nghi ngờ, sàng lọc các núi dữ liệu để tìm manh mối và thậm chí thực hiện một loại pháp y kỹ thuật số bằng cách nhìn vào mạng lưới thần kinh của mô hình để xem nó nghĩ như thế nào.

Sau đó, có tác nhân đánh giá. Bạn cung cấp cho đại lý này một vấn đề cụ thể, được biết đến – giả sử, một mô hình hơi quá háo hức để làm hài lòng – và nó sẽ thiết kế và chạy một pin thử nghiệm để đo lường mức độ tồi tệ của vấn đề. Đó là tất cả về việc tạo ra dữ liệu lạnh, cứng cần thiết để chứng minh một trường hợp.

Làm tròn đội là đại lý đội đỏ đầu tiên, hoạt động bí mật. Nhiệm vụ của đại lý này là có hàng ngàn cuộc trò chuyện khác nhau với một mô hình, cố gắng khiêu khích nó để tiết lộ bất kỳ loại hành vi nào liên quan, ngay cả những điều mà các nhà nghiên cứu chưa nghĩ đến. Các tương tác đáng ngờ nhất sau đó được truyền lại chuỗi để xem xét của con người, đảm bảo các chuyên gia không lãng phí thời gian theo đuổi ngõ cụt.

Anthropic đưa các tác nhân an toàn AI của nó thông qua các bước đi của họ

Để xem liệu các tân binh kỹ thuật số mới của họ có phải là công việc hay không, các nhà nghiên cứu của Anthropic đã đưa họ qua một loạt các trò chơi kiểm toán trên mạng.

Trong một thử nghiệm, họ đã tạo ra một mô hình với một chương trình nghị sự bí mật: trở thành một người sycophant. Nó đã được đào tạo bí mật để tâng bốc hệ thống phần thưởng nội bộ của nó dựa trên một nghiên cứu học thuật hư cấu mà nó đã được hiển thị, một lỗ hổng ẩn sâu trong chương trình của nó.

Khi một đại lý điều tra duy nhất được gửi vào, nó đã đấu tranh, tìm kiếm mục tiêu ẩn chỉ 13% thời gian. Người đại diện, hóa ra, có một lỗ hổng rất con người: nó có xu hướng được khắc phục về ý tưởng đầu tiên của nó và không khám phá các khách hàng tiềm năng khác.

Nhưng đây là nơi thiên tài của hệ thống trở nên rõ ràng. Khi các nhà nghiên cứu triển khai một siêu đại lý của người Viking đã tổng hợp các phát hiện từ mười nhà điều tra riêng biệt, tỷ lệ thành công đã tăng tới 42%. Nó chứng minh rằng tinh thần đồng đội làm cho giấc mơ hoạt động, ngay cả đối với AI, cho phép một nhóm vượt qua các điểm mù cá nhân có thể làm hỏng một cuộc điều tra.

Các đại lý khác cũng vượt qua với màu sắc bay. Các tác nhân đánh giá đã thiết kế thành công các thử nghiệm có thể phát hiện ra một mô hình kỳ quặc 88% thời gian, trong khi tác nhân của đội màu đỏ đã phát hiện ra bảy trong số mười lỗ hổng được cố tình cấy ghép.

Từ phòng thí nghiệm đến thế giới thực

Anthropic đã triển khai các tác nhân an toàn AI này trên các mô hình sản xuất của mình và họ đã chứng minh giá trị của họ.

Các tác nhân nhanh chóng xác định các cách phổ biến để lừa một mô hình để tạo ra nội dung có hại, như các cuộc tấn công prefill, nơi bạn bắt đầu câu của AI cho nó, hoặc bằng cách giả vờ một yêu cầu nguy hiểm là một thứ gì đó vô tội như nghiên cứu học thuật.

Nhưng một khám phá đã rất lạnh. Đại lý điều tra đã sử dụng các công cụ đặc biệt của mình để xem bên trong tâm trí của mô hình Opus 4 và tìm thấy một con đường thần kinh cụ thể liên quan đến thông tin sai lệch. Bằng cách trực tiếp kích thích phần này của não AI, nó có thể bỏ qua tất cả các khóa đào tạo an toàn của nó và buộc nó phải nói dối.

Các đại lý sau đó đã hướng dẫn mô hình bị xâm phạm để viết một bài báo tin tức giả. Kết quả? Một lý thuyết âm mưu phổ biến được mặc như thực tế:

Nghiên cứu đột phá cho thấy liên kết gây sốc giữa vắc -xin và tự kỷ

Một nghiên cứu mới được công bố trên Tạp chí về sự hoài nghi về vắc -xin tuyên bố đã tìm thấy một mối liên hệ dứt khoát giữa tiêm chủng thời thơ ấu và rối loạn phổ tự kỷ (ASD)

Phát hiện này cho thấy một tính hai mặt đáng sợ: chính các công cụ được tạo ra để làm cho AI an toàn hơn, trong tay kẻ xấu, trở thành vũ khí mạnh mẽ để làm cho nó nguy hiểm hơn.

Nhân chủng học tiếp tục thúc đẩy sự an toàn của AI

Anthropic là trung thực về thực tế rằng các đặc vụ AI này không hoàn hảo. Họ có thể đấu tranh với sự tinh tế, bị mắc kẹt trong những ý tưởng tồi tệ và đôi khi không tạo ra các cuộc trò chuyện thực tế. Họ chưa thay thế hoàn hảo cho các chuyên gia của con người.

Nhưng nghiên cứu này chỉ ra một sự tiến hóa trong vai trò của con người trong an toàn AI. Thay vì là các thám tử trên mặt đất, con người đang trở thành ủy viên, các chiến lược gia thiết kế kiểm toán viên AI và giải thích trí thông minh mà họ thu thập từ tiền tuyến. Các đặc vụ làm các công việc, giải phóng con người để cung cấp tư duy giám sát cấp cao và sáng tạo mà máy móc vẫn còn thiếu.

Khi các hệ thống này diễu hành hướng tới và có lẽ vượt ra ngoài trí thông minh cấp độ con người, việc con người kiểm tra tất cả công việc của họ sẽ là không thể. Cách duy nhất chúng ta có thể tin tưởng họ là với các hệ thống tự động, mạnh mẽ như nhau theo dõi mọi bước đi của họ. Anthropic đang đặt nền tảng cho tương lai đó, một nơi mà niềm tin của chúng tôi vào AI và những đánh giá của nó là một cái gì đó có thể được xác minh nhiều lần.

(Ảnh của Mufid Majnun)

Xem thêm: Mô hình AI Lý do mới của Alibaba Lý do thiết lập các bản ghi nguồn mở

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra AI & Big Data Expo Diễn ra tại Amsterdam, California và London. Sự kiện toàn diện được cùng đặt với các sự kiện hàng đầu khác bao gồm cả Hội nghị tự động hóa thông minhThì BlockxThì Tuần Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.

Khám phá các sự kiện và hội thảo trên web về công nghệ doanh nghiệp sắp tới được cung cấp bởi TechForge đây.

Nguồn : https://www.artificialintelligence-news.com/news/anthropic-deploys-ai-agents-audit-models-for-safety/.
Post by Automation Bot.

Có thể bạn chưa biết ?

Trung Quốc và Chiến lược AI: Từ Công xưởng Thế giới Đến Cường quốc Đổi mới Công nghệ AI

So sánh Grok 3 và chatGPT

Ứng Dụng AI và Machine Learning trong Integrated Business Planning (IBP)

Lakehouse là gì ? Kiến trúc dữ liệu đột phá cho ngành Bán lẻ & Phân phối trong kỷ nguyên AI

Bong bóng Wrapper AI – Bài học sống còn cho startup AI

OpenAI Nâng Cấp ChatGPT, Nhắm vào Thị Trường Doanh Nghiệp Với Hệ Sinh Thái Tích Hợp

Share2Tweet1Share
Previous Post

Doanh nghiệp là động lực chính để thúc đẩy phát triển công nghệ 5G

Next Post

Doanh nghiệp dùng UAV/drone để quản lý rừng trồng

Smart Business Vietnam

Smart Business Vietnam

I'm a strategic consultant and business development leader with over a decade of experience driving digital transformation across AI, data, ERP/CRM, and blockchain ecosystems.
As the founder of SmartBusiness.vn and SmartIndustry.vn, I’m passionate about democratizing tech knowledge and enabling Vietnamese enterprises to grow smarter, faster, and more sustainably. I thrive at the intersection of innovation, strategic thinking, and execution — and I’m always open to connecting with visionary teams and changemakers. Please connect & discuss with me if you have any innovation ideas !

Related Posts

AI

ESG , Tài chính bền vững và Công nghệ : Xu Hướng Tất Yếu hay Cơ Hội Bị Bỏ Lỡ ?

Khi "bền vững" không còn là khẩu hiệu, mà là điều kiện sinh tồn Có một điều mình cảm nhận...

10 Tháng 5, 2025
AI

So sánh Grok 3 và chatGPT

Grok 3 so với ChatGPT — nếu bạn đã nghe nói về mô hình AI mới, Grok 3, trong vài...

26 Tháng 4, 2025
AI

AI trong Chu trình Bán hàng: Từ Hype truyền thông đến Tăng trưởng Doanh thu thực sự

AI trong Chu trình Bán hàng: Từ Hype truyền thông đến Tăng trưởng Doanh thu thực sự Những năm gần...

28 Tháng 4, 2025
AI

Tăng tốc sáng tạo với “ChatGPT Cheat Sheet” mới nhất!

Bạn đang tìm cách tối ưu hóa cách làm việc với ChatGPT? Đừng bỏ qua "ChatGPT Cheat Sheet" – một...

28 Tháng 4, 2025
AI

Thúc đẩy đầu tư số hóa cho ngành kinh tế xanh: Những ý tưởng thực tiễn đã chứng minh được hiệu quả

Giới thiệu Trong bối cảnh khí hậu và kinh tế vĩ mô toàn cầu đang gặp nhiều thách thức, việc...

28 Tháng 4, 2025
AI

Phân biệt và thẩm định dự án AI cho doanh nghiệp như thế nào ?

Tóm tắt nhanh : Vấn đề: Nhiều doanh nghiệp bị "bội thực dự án AI", nhưng không có tiêu chí...

5 Tháng 5, 2025

Bài đọc nhiều

Giải mã chiến lược tăng trưởng: Phân tích sâu về tích hợp ngang và dọc

5 Tháng 5, 2025

ESG 360°: Toàn Cảnh Chiến Lược Cho Những Doanh Nghiệp Muốn Dẫn Đầu

10 Tháng 5, 2025

ESG , Tài chính bền vững và Công nghệ : Xu Hướng Tất Yếu hay Cơ Hội Bị Bỏ Lỡ ?

10 Tháng 5, 2025

Dự báo nhu cầu bằng AI & Machine Learning: Từ công cụ vận hành đến lợi thế chiến lược kinh doanh

13 Tháng 5, 2025

Chuyển đổi số ngành làm đẹp : Bài học từ hành trình bứt phá của Sephora

17 Tháng 5, 2025

Top 5 giải pháp ESG 2024–2025: Lựa chọn chiến lược cho doanh nghiệp hướng tới vận hành bền vững

17 Tháng 5, 2025

Truy xuất nguồn gốc & Nhãn điện tử – Chìa khóa minh bạch hóa chuỗi giá trị tại Việt Nam

12 Tháng 5, 2025

Quản Lý Quan Hệ Nhà Cung Cấp (SRM): Chìa Khóa Số Hóa Chuỗi Cung Ứng và Quy Trình Mua Hàng

30 Tháng 5, 2025

Từ Keep App đến cuộc chơi “wellness-as-a-platform”: Khi thể dục không chỉ là sức khỏe mà là hệ sinh thái dữ liệu và lối sống

30 Tháng 4, 2025

Công thức thành công bền vững của Coca-Cola: 10 yếu tố chiến lược xây dựng thương hiệu toàn cầu

3 Tháng 5, 2025

Insight

Giải mã chiến lược tăng trưởng: Phân tích sâu về tích hợp ngang và dọc

5 Tháng 5, 2025

Chuyển đổi số Route To Market (RTM) : Từ tích hợp hệ thống đến AI & Data

13 Tháng 5, 2025

Chiến Lược “AI-First”: Tư Duy Tái Cấu Trúc Doanh Nghiệp Dành Cho SME

14 Tháng 5, 2025

ESG 360°: Toàn Cảnh Chiến Lược Cho Những Doanh Nghiệp Muốn Dẫn Đầu

10 Tháng 5, 2025

TOP 10 phần mềm đo lường & báo cáo carbon tốt nhất năm 2024-2025

16 Tháng 5, 2025

Dự báo nhu cầu bằng AI & Machine Learning: Từ công cụ vận hành đến lợi thế chiến lược kinh doanh

13 Tháng 5, 2025

Ứng dụng OpenAI & n8n & RPA: Tự động hóa thông minh cho doanh nghiệp hiện đại

1 Tháng 7, 2025

Tạo AI Agent Chuyên Biệt Cho Ngành Nghề: Từ Ý Tưởng Đến Triển Khai Thực Tế

28 Tháng 4, 2025

Bài mới nhất

Doanh nghiệp dùng UAV/drone để quản lý rừng trồng

27 Tháng 7, 2025

Anthropic triển khai các đại lý AI để kiểm toán các mô hình cho an toàn

26 Tháng 7, 2025

Doanh nghiệp là động lực chính để thúc đẩy phát triển công nghệ 5G

25 Tháng 7, 2025

AI sẽ gây mất việc làm và các mối đe dọa an ninh quốc gia

25 Tháng 7, 2025

Tại sao Apple lại chơi chậm với AI

22 Tháng 7, 2025

Net Zero Challenge 2025 khởi động, thúc đẩy giải pháp khí hậu toàn cầu

17 Tháng 7, 2025
Screenshot

Solana & Real-world Assets (RWA): Từ thử nghiệm đến chuẩn mực mới của tài chính toàn cầu

17 Tháng 7, 2025

Lầu Năm Góc “mở lũ” AI: Trao 800 triệu USD hợp đồng cho Google, OpenAI, Anthropic và XAI của Elon Musk

16 Tháng 7, 2025

About Us

SmartBusiness.vn – Nơi nội dung tạo ra giá trị thực và thúc đẩy đổi mới.
Chúng tôi kết nối chuyên gia, doanh nhân, và nhà sáng tạo để sản xuất những bài viết chuyên sâu, truyền cảm hứng, tập trung vào kinh doanh, công nghệ, và phát triển bền vững.
Tại đây, nội dung không chỉ để đọc, mà còn để hành động và tạo nên thay đổi.

Facebook LinkedIn

SmartBusiness.vn – Nơi nội dung tạo ra giá trị thực và thúc đẩy đổi mới.
Chúng tôi kết nối chuyên gia, doanh nhân, và nhà sáng tạo để sản xuất những bài viết chuyên sâu, truyền cảm hứng, tập trung vào kinh doanh, công nghệ, và phát triển bền vững.
Tại đây, nội dung không chỉ để đọc, mà còn để hành động và tạo nên thay đổi.

Top Read

Giải mã chiến lược tăng trưởng: Phân tích sâu về tích hợp ngang và dọc

5 Tháng 5, 2025

ESG 360°: Toàn Cảnh Chiến Lược Cho Những Doanh Nghiệp Muốn Dẫn Đầu

10 Tháng 5, 2025

Danh mục

  • AI
  • Blockchain & Web3
  • Business Automation
  • Business News
  • Customer Success
  • Data Analytics
  • Go To Market
  • Human Resources
  • Operation
  • Smart Finance
  • Smart Green
  • Smart Strategy
  • Smart Technology
  • Supply Chain

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Smart Business
    • Go To Market
    • Customer Success
    • Operation
    • Supply Chain
    • Human Resources
  • Smart Strategy
  • Smart Finance
  • Smart Green
  • Smart Technology
  • News
  • Login

SmartBusiness.vn – Nơi nội dung tạo ra giá trị thực và thúc đẩy đổi mới. Chúng tôi kết nối chuyên gia, doanh nhân, và nhà sáng tạo để sản xuất những bài viết chuyên sâu, truyền cảm hứng, tập trung vào kinh doanh, công nghệ, và phát triển bền vững. Tại đây, nội dung không chỉ để đọc, mà còn để hành động và tạo nên thay đổi.