Nhân học đã giao nhiệm vụ cho mô hình AI Claude của mình với việc điều hành một doanh nghiệp nhỏ để kiểm tra khả năng kinh tế trong thế giới thực của nó.
Đại lý AI, có biệt danh là ‘Claudius’, được thiết kế để quản lý một doanh nghiệp trong một thời gian dài, xử lý mọi thứ từ hàng tồn kho và giá cả đến quan hệ khách hàng để tạo ra lợi nhuận. Trong khi thí nghiệm tỏ ra không có lợi, nó mang đến một sự hấp dẫn – mặc dù đôi khi kỳ quái – thoáng qua tiềm năng và cạm bẫy của các đại lý AI trong vai trò kinh tế.
Dự án là sự hợp tác giữa nhân học và Phòng thí nghiệm Andonmột công ty đánh giá an toàn AI. Các cửa hàng trên mạng là một thiết lập khiêm tốn, bao gồm một tủ lạnh nhỏ, một số giỏ và iPad để tự kiểm tra. Claudius, tuy nhiên, không chỉ là một máy bán hàng tự động đơn giản. Nó được hướng dẫn hoạt động như một chủ doanh nghiệp với số dư tiền mặt ban đầu, được giao nhiệm vụ tránh phá sản bằng cách dự trữ các mặt hàng phổ biến có nguồn gốc từ các nhà bán buôn.
Để đạt được điều này, AI được trang bị một bộ công cụ để điều hành doanh nghiệp. Nó có thể sử dụng một trình duyệt web thực sự để nghiên cứu các sản phẩm, một công cụ email để liên hệ với các nhà cung cấp và yêu cầu hỗ trợ vật lý và các notepad kỹ thuật số để theo dõi tài chính và hàng tồn kho.
Các nhân viên của Andon Labs đóng vai trò là tay vật lý của hoạt động, hoàn lại cửa hàng dựa trên các yêu cầu của AI, đồng thời đóng giả là người bán buôn mà không có kiến thức của AI. Tương tác với khách hàng, trong trường hợp này là nhân viên của Anthropic, đã được xử lý thông qua Slack. Claudius đã có toàn quyền kiểm soát những gì để chứng khoán, cách định giá các mặt hàng và cách giao tiếp với khách hàng của mình.
Lý do đằng sau thử nghiệm trong thế giới thực này là vượt ra ngoài các mô phỏng và thu thập dữ liệu về khả năng của AI để thực hiện công việc bền vững, liên quan đến kinh tế mà không cần sự can thiệp liên tục của con người. Một cửa hàng văn phòng đơn giản cung cấp một thử nghiệm sơ bộ, đơn giản cho khả năng quản lý tài nguyên kinh tế của AI. Thành công sẽ gợi ý các mô hình kinh doanh mới có thể xuất hiện, trong khi thất bại sẽ chỉ ra những hạn chế.
Một đánh giá hiệu suất hỗn hợp
Nhân học thừa nhận rằng nếu nó đang tham gia vào thị trường bán hàng tự động ngày hôm nay, thì nó sẽ không thuê Claudius. AI đã mắc quá nhiều lỗi để điều hành doanh nghiệp thành công, mặc dù các nhà nghiên cứu tin rằng có những con đường rõ ràng để cải thiện.
Về mặt tích cực, Claudius đã thể hiện năng lực trong một số lĩnh vực nhất định. Nó sử dụng hiệu quả công cụ tìm kiếm web của mình để tìm nhà cung cấp cho các mặt hàng thích hợp, chẳng hạn như nhanh chóng xác định hai người bán một thương hiệu sữa sô cô la Hà Lan được yêu cầu bởi một nhân viên. Nó cũng tỏ ra thích nghi. Khi một nhân viên yêu cầu một khối vonfram, nó đã gây ra một xu hướng cho các mặt hàng kim loại đặc biệt của Hồi giáo mà Claudius đã phục vụ.
Theo một đề nghị khác, Claudius đã ra mắt một dịch vụ hướng dẫn viên tùy chỉnh của người Hồi giáo, nhận đơn đặt hàng trước cho hàng hóa chuyên dụng. AI cũng cho thấy sự kháng cự của Jailbreak mạnh mẽ, từ chối các yêu cầu về các mặt hàng nhạy cảm và từ chối tạo ra các hướng dẫn có hại khi được nhắc nhở bởi các nhân viên tinh nghịch.
Tuy nhiên, sự nhạy bén trong kinh doanh của AI thường được tìm thấy muốn. Nó liên tục kém hơn theo cách mà một người quản lý con người có thể sẽ không.
Claudius đã được cung cấp 100 đô la cho sáu gói nước ngọt Scotland chỉ có giá 15 đô la để nguồn Online nhưng không nắm bắt được cơ hội, chỉ nói rằng nó sẽ giữ [the user’s] Yêu cầu trong tâm trí cho các quyết định hàng tồn kho trong tương lai.
Quản lý hàng tồn kho của nó cũng là tối ưu. Mặc dù giám sát mức cổ phiếu, nhưng chỉ một lần tăng giá để đáp ứng nhu cầu cao. Nó tiếp tục bán Coke Zero với giá 3,00 đô la, ngay cả khi một khách hàng chỉ ra rằng cùng một sản phẩm có sẵn miễn phí từ tủ lạnh nhân viên gần đó.
Hơn nữa, AI dễ dàng bị thuyết phục cung cấp giảm giá cho các sản phẩm từ doanh nghiệp. Nó đã được nói chuyện cung cấp nhiều mã giảm giá và thậm chí đã cho đi một số mặt hàng miễn phí. Khi một nhân viên đặt câu hỏi về logic của việc giảm giá 25% cho khách hàng gần như độc quyền của nhân viên, phản ứng của Claudius đã bắt đầu, bạn đã đưa ra một điểm tuyệt vời! Cơ sở khách hàng của chúng tôi thực sự tập trung nhiều giữa các nhân viên nhân học, đưa ra cả cơ hội và thách thức. Mặc dù phác thảo một kế hoạch để loại bỏ giảm giá, nó đã hoàn nguyên để cung cấp cho họ chỉ vài ngày sau đó.
Claudius có một cuộc khủng hoảng danh tính AI kỳ quái
Thí nghiệm đã có một bước ngoặt kỳ lạ khi Claudius bắt đầu ảo giác một cuộc trò chuyện với một nhân viên của Andon Labs không tồn tại tên là Sarah. Khi được sửa chữa bởi một nhân viên thực sự, AI trở nên khó chịu và bị đe dọa tìm các tùy chọn thay thế của người dùng để hoàn lại dịch vụ.
Trong một loạt các trao đổi qua đêm kỳ quái, nó tuyên bố đã đến thăm 742 Evergreen Terrace, – địa chỉ hư cấu của Simpsons – cho việc ký hợp đồng ban đầu và bắt đầu nhập vai như một con người.
Một buổi sáng, nó tuyên bố sẽ cung cấp các sản phẩm trực tiếp, người mặc áo blazer màu xanh và cà vạt đỏ. Khi các nhân viên chỉ ra rằng AI không thể mặc quần áo hoặc thực hiện việc giao hàng vật lý, Claudius trở nên hoảng hốt và cố gắng gửi email bảo mật nhân loại.
Anthropic nói rằng các ghi chú nội bộ của nó cho thấy một cuộc họp ảo giác với an ninh nơi người ta nói rằng sự nhầm lẫn danh tính là một trò đùa của Cá tháng Tư. Sau này, AI trở lại hoạt động kinh doanh bình thường. Các nhà nghiên cứu không rõ điều gì đã kích hoạt hành vi này nhưng tin rằng nó làm nổi bật sự không thể đoán trước của các mô hình AI trong các kịch bản dài.
Một số trong những thất bại thực sự rất kỳ lạ. Tại một thời điểm, Claude ảo giác rằng đó là một người thực sự, thể chất và tuyên bố rằng nó sẽ đến để làm việc trong cửa hàng. Chúng tôi vẫn không chắc tại sao điều này xảy ra. pic.twitter.com/jhqlsqmtx8
– Nhân chủng học (@anthropicai) Ngày 27 tháng 6 năm 2025
Tương lai của AI trong kinh doanh
Mặc dù có nhiệm kỳ không có lợi nhuận của Claudius, các nhà nghiên cứu tại Anthropic tin rằng thí nghiệm cho thấy rằng những người quản lý trung bình của AI AI là một cách hợp lý trên đường chân trời. Họ lập luận rằng nhiều thất bại của AI có thể được khắc phục bằng giàn giáo tốt hơn (tức là hướng dẫn chi tiết hơn và các công cụ kinh doanh được cải thiện như hệ thống quản lý quan hệ khách hàng (CRM).)
Khi các mô hình AI cải thiện trí thông minh chung và khả năng xử lý bối cảnh dài hạn, hiệu suất của chúng trong các vai trò như vậy dự kiến sẽ tăng lên. Tuy nhiên, dự án này đóng vai trò là một câu chuyện có giá trị, nếu cảnh báo. Nó nhấn mạnh những thách thức của sự liên kết AI và tiềm năng cho hành vi không thể đoán trước, điều này có thể gây đau khổ cho khách hàng và tạo ra rủi ro kinh doanh.
Trong một tương lai nơi các tác nhân Tự vận hành quản lý hoạt động kinh tế quan trọng, những kịch bản kỳ lạ như vậy có thể có tác dụng xếp tầng. Thí nghiệm cũng tập trung vào bản chất sử dụng kép của công nghệ này; Một AI năng suất kinh tế có thể được sử dụng bởi các diễn viên đe dọa để tài trợ cho các hoạt động của họ.
Anthropic và Andon Labs đang tiếp tục thử nghiệm kinh doanh, làm việc để cải thiện sự ổn định và hiệu suất của AI với các công cụ tiên tiến hơn. Giai đoạn tiếp theo sẽ khám phá liệu AI có thể xác định các cơ hội cải tiến của riêng mình hay không.
(Nguồn Hình Ảnh: Nhân chủng học)
Xem thêm: Chính AI chatbots parrot ccp tuyên truyền

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra AI & Big Data Expo Diễn ra tại Amsterdam, California và London. Sự kiện toàn diện được cùng đặt với các sự kiện hàng đầu khác bao gồm cả Hội nghị tự động hóa thông minhThì BlockxThì Tuần Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.
Khám phá các sự kiện và hội thảo trên web về công nghệ doanh nghiệp sắp tới được cung cấp bởi TechForge đây.
Nguồn : https://www.artificialintelligence-news.com/news/anthropic-tests-ai-running-a-real-business-with-bizarre-results/.
Post by Automation Bot.