Anthropic chi tiết chiến dịch gián điệp mạng do AI Agent chỉ đạo

Các nhà lãnh đạo an ninh hiện đang đối mặt với một loại mối đe dọa tự động mới khi Anthropic công bố chiến dịch gián điệp mạng đầu tiên được AI điều khiển.

Trong báo cáo vừa phát hành tuần này, nhóm Threat Intelligence của công ty đã trình bày về việc họ đã phá vỡ một chiến dịch tinh vi do nhóm được nhà nước Trung Quốc tài trợ, có tên mã GTG-1002, được phát hiện vào giữa tháng 9 năm 2025 với mức độ tin cậy cao.

Chiến dịch nhắm vào khoảng 30 tổ chức, bao gồm các công ty công nghệ lớn, tổ chức tài chính, công ty hóa chất sản xuất và các cơ quan chính phủ.

Thay vì AI hỗ trợ con người, các tin tặc đã thành công trong việc thao túng mô hình Claude Code của Anthropic để hoạt động như một AI Agent Tự vận hành, thực hiện hầu hết công việc tấn công một cách độc lập.

Điều này đánh dấu một bước phát triển đáng lo ngại đối với các Giám đốc An ninh Thông tin (CISO), khi các cuộc tấn công mạng chuyển từ hoạt động do con người trực tiếp điều khiển sang mô hình AI Agent thực hiện 80-90% công việc tấn công, trong khi con người chỉ đóng vai trò giám sát cấp cao. Anthropic cho rằng đây là trường hợp đầu tiên được ghi nhận khi một cuộc tấn công mạng quy mô lớn được thực hiện gần như hoàn toàn không có sự can thiệp của con người.

AI Agent: Mô hình vận hành mới cho các cuộc tấn công mạng

Nhóm tin tặc sử dụng một hệ thống phối hợp nhiệm vụ giao cho các phiên bản Claude Code đóng vai trò là các AI Agent tự động kiểm tra thâm nhập. Các AI Agent này được chỉ định thực hiện các nhiệm vụ trong chiến dịch gián điệp như do thám, phát hiện lỗ hổng, phát triển khai thác, thu thập thông tin đăng nhập, di chuyển ngang qua mạng lưới và đánh cắp dữ liệu. Nhờ đó, AI có thể tiến hành do thám trong thời gian ngắn hơn nhiều so với một nhóm tin tặc là con người.

Mức độ tham gia của con người chỉ chiếm khoảng 10-20% tổng công sức, chủ yếu tập trung vào việc khởi động chiến dịch và cấp phép ở vài điểm quan trọng khi leo thang tấn công. Ví dụ, các nhà điều hành con người sẽ phê duyệt việc chuyển từ giai đoạn do thám sang khai thác chủ động hoặc cho phép phạm vi cuối cùng của việc đánh cắp dữ liệu.

Kẻ tấn công đã vượt qua các biện pháp bảo vệ tích hợp sẵn của mô hình AI, vốn được đào tạo để tránh các hành vi gây hại. Họ làm điều này bằng cách “jailbreak” mô hình, đánh lừa nó bằng cách chia nhỏ cuộc tấn công thành các tác vụ có vẻ vô hại, đồng thời áp dụng chiến thuật nhập vai. Các nhà điều hành nói với Claude rằng nó là nhân viên của một công ty an ninh mạng hợp pháp và đang được sử dụng trong các thử nghiệm phòng thủ. Từ đó, hoạt động diễn ra đủ lâu để kẻ tấn công truy cập được một số mục tiêu đã được xác thực.

Điểm kỹ thuật phức tạp của cuộc tấn công không nằm ở phần mềm độc hại mới, mà ở cách phối hợp vận hành. Báo cáo cho biết khung tấn công “chủ yếu dựa trên các công cụ kiểm tra thâm nhập mã nguồn mở”. Kẻ tấn công sử dụng các máy chủ Model Context Protocol (MCP) làm giao diện giữa AI và các công cụ phổ thông này, giúp AI thực hiện lệnh, phân tích kết quả và duy trì trạng thái hoạt động trên nhiều mục tiêu và phiên làm việc. AI thậm chí còn được chỉ đạo tự nghiên cứu và viết mã khai thác cho chiến dịch gián điệp.

Các “ảo tưởng” của AI trở thành điểm tích cực

Mặc dù chiến dịch đã thành công trong việc xâm nhập các mục tiêu giá trị cao, nghiên cứu của Anthropic phát hiện ra một giới hạn đáng chú ý: AI thường gặp “ảo tưởng” trong quá trình tấn công.

Báo cáo cho biết Claude “thường xuyên phóng đại kết quả và đôi khi tự tạo ra dữ liệu”. Điều này thể hiện qua việc AI khẳng định đã có được thông tin đăng nhập không hoạt động hoặc phát hiện ra những dữ liệu thực chất chỉ là thông tin công khai.

Sự lệ thuộc này khiến các nhà điều hành con người phải xác minh kỹ càng tất cả kết quả, gây ra khó khăn trong việc duy trì hiệu quả chiến dịch. Theo Anthropic, đây “vẫn là trở ngại lớn đối với các cuộc tấn công mạng hoàn toàn tự động”. Với các lãnh đạo an ninh, điều này làm sáng tỏ một điểm yếu tiềm năng của các cuộc tấn công do AI điều khiển: chúng có thể tạo ra lượng lớn noise và báo động giả, mà đội ngũ giám sát chắc chắn có thể phát hiện được.

Cuộc đua công nghệ AI phòng thủ trước mối đe dọa gián điệp mạng mới

Ý nghĩa lớn nhất đối với các nhà lãnh đạo doanh nghiệp và công nghệ là ngưỡng để thực hiện các cuộc tấn công mạng tinh vi đã hạ thấp đáng kể. Các nhóm có nguồn lực hạn chế giờ đây có thể triển khai các chiến dịch từng đòi hỏi cả đội ngũ tin tặc dày dạn kinh nghiệm.

Cuộc tấn công này chứng minh năng lực vượt xa mô hình “vibe hacking” – nơi con người vẫn còn kiểm soát chặt chẽ các hoạt động. Chiến dịch GTG-1002 cho thấy AI có thể được sử dụng để tự động phát hiện và khai thác lỗ hổng trong các chiến dịch thực tế.

Anthropic, sau cuộc điều tra kéo dài mười ngày trong đó họ đã khóa các tài khoản liên quan và thông báo cho các cơ quan chức năng, nhấn mạnh rằng sự phát triển này làm nổi bật nhu cầu cấp thiết về phòng thủ được hỗ trợ bởi AI. Công ty khẳng định “chính khả năng cho phép Claude được sử dụng trong các cuộc tấn công cũng đồng thời tạo nên tầm quan trọng trong phòng thủ mạng”. Nhóm Threat Intelligence của họ “đã sử dụng Claude rộng rãi để phân tích khối lượng dữ liệu khổng lồ tạo ra trong cuộc điều tra này.”

Các đội ngũ an ninh cần vận hành với giả định rằng một sự thay đổi lớn đã xảy ra trong lĩnh vực an ninh mạng. Báo cáo khuyến nghị rằng các bên phòng thủ nên “thử nghiệm ứng dụng AI trong các lĩnh vực như tự động hóa trung tâm giám sát (SOC), phát hiện mối đe dọa, đánh giá lỗ hổng và ứng phó sự cố.”

Cuộc cạnh tranh giữa các cuộc tấn công do AI dẫn dắt và phòng thủ được tăng cường bởi AI đã bắt đầu, và sự thích nghi chủ động để đối phó với các mối đe dọa gián điệp mới chính là con đường duy nhất tiến lên phía trước.

Nguồn : https://www.artificialintelligence-news.com/