OpenAI đã tiết lộ Operator, một công cụ tích hợp hoàn hảo với các trình duyệt web để thực hiện các tác vụ một cách tự động. Từ điền biểu mẫu đến đặt hàng tạp hóa, Operator hứa hẹn sẽ đơn giản hóa các hoạt động Online lặp đi lặp lại bằng cách tương tác trực tiếp với các Site thông qua nhấp chuột, nhập và cuộn.
Được thiết kế dựa trên một mô hình mới có tên là Tác nhân sử dụng máy tính (CUA), Người vận hành kết hợp khả năng nhận dạng thị giác của GPT-4o với khả năng suy luận nâng cao—cho phép nó hoạt động như một “con người trong trình duyệt” ảo. Tuy nhiên, đối với tất cả sự đổi mới của nó, các chuyên gia trong ngành nhận thấy vẫn còn chỗ để cải tiến.
Yiannis Antoniou, Trưởng bộ phận AI, Dữ liệu và Phân tích tại công ty tư vấn chuyên môn Phòng thí nghiệm49đã chia sẻ những hiểu biết sâu sắc của mình về tầm quan trọng và vị trí của Nhà điều hành trong bối cảnh cạnh tranh của các hệ thống AI của tác nhân.
Agentic AI thông qua giao diện quen thuộc
Antoniou, người có hơn hai thập kỷ kinh nghiệm thiết kế hệ thống AI cho các công ty dịch vụ tài chính, cho biết: “Thông báo của OpenAI về Nhà điều hành, bước đột phá mới nhất của họ vào cuộc chiến AI tác nhân, vừa hấp dẫn vừa chưa đầy đủ”.

“Rõ ràng bị ảnh hưởng bởi hệ thống Sử dụng Máy tính của Anthropic Claude, được giới thiệu vào tháng 10, Nhà điều hành hợp lý hóa trải nghiệm bằng cách loại bỏ nhu cầu về cơ sở hạ tầng phức tạp và tập trung vào giao diện quen thuộc: trình duyệt.”
Bằng cách thiết kế Toán tử để hoạt động trong môi trường mà người dùng đã hiểu, trình duyệt web, OpenAI loại bỏ nhu cầu về các API hoặc tích hợp riêng.
“Bằng cách tận dụng giao diện phổ biến nhất thế giới, OpenAI nâng cao trải nghiệm người dùng và thu hút sự quan tâm ngay lập tức từ công chúng. Cách tiếp cận tập trung vào trình duyệt này tạo ra tiềm năng đáng kể cho việc áp dụng rộng rãi, điều mà Anthropic – mặc dù có lợi thế đi đầu – đã phải vật lộn để đạt được.”
Không giống như một số hệ thống cạnh tranh có thể mang lại cảm giác kỹ thuật hoặc thích hợp trong ứng dụng của họ, khung tập trung vào trình duyệt của Nhà điều hành giúp giảm rào cản gia nhập và là một bước tiến trong nỗ lực dân chủ hóa AI của OpenAI.
Tính độc đáo về khả năng sử dụng và bảo mật
Một trong những điểm nổi bật của Operator là nhấn mạnh vào khả năng thích ứng và bảo mật, được triển khai thông qua các giao thức con người trong vòng lặp. Antoniou thừa nhận những tính năng hữu dụng chu đáo này nhưng lưu ý rằng cần phải làm nhiều việc hơn nữa.
“Về mặt kiến trúc, việc tích hợp trình duyệt của Nhà điều hành phản ánh chặt chẽ hệ thống của Claude. Cả hai đều liên quan đến việc chụp ảnh màn hình trình duyệt của người dùng và gửi chúng đi phân tích, cũng như điều khiển màn hình thông qua tổ hợp phím ảo và di chuyển chuột. Tuy nhiên, Operator giới thiệu những điểm nhấn về khả năng sử dụng chu đáo.
“Các tính năng như hướng dẫn tùy chỉnh cho các Site cụ thể sẽ bổ sung thêm một lớp cá nhân hóa và nhấn mạnh vào các biện pháp bảo vệ con người trong vòng lặp chống lại các hành động trái phép – chẳng hạn như mua hàng, gửi email hoặc xin việc – thể hiện nhận thức của OpenAI về các rủi ro bảo mật tiềm ẩn đặt ra bởi các Site độc hại, nhưng rõ ràng là cần phải làm nhiều việc hơn để làm cho hệ thống này trở nên an toàn rộng rãi trong nhiều tình huống khác nhau.”
OpenAI đã triển khai khung an toàn nhiều lớp cho Người vận hành, bao gồm chế độ tiếp quản đối với đầu vào an toàn, xác nhận của người dùng trước các hành động quan trọng và hệ thống giám sát để phát hiện hành vi bất lợi. Hơn nữa, người dùng có thể xóa dữ liệu duyệt web và quản lý cài đặt quyền riêng tư trực tiếp trong công cụ.
Tuy nhiên, Antoniou nhấn mạnh rằng các biện pháp này vẫn đang được phát triển—đặc biệt khi Người vận hành gặp phải các nhiệm vụ phức tạp hoặc nhạy cảm.
Nhà điều hành OpenAI tiếp tục dân chủ hóa AI
Antoniou cũng coi việc phát hành Operator là một thời điểm quan trọng đối với bối cảnh AI của người tiêu dùng, mặc dù nó vẫn đang ở giai đoạn đầu.
“Nhìn chung, đây là nỗ lực đầu tiên xuất sắc trong việc xây dựng một hệ thống tác nhân cho người dùng hàng ngày, được thiết kế xoay quanh cách họ tương tác tự nhiên với công nghệ. Khi hệ thống phát triển – với các khả năng bổ sung và kiểm soát bảo mật mạnh mẽ hơn – đợt triển khai có giới hạn này, với mức giá 200 USD/tháng, sẽ đóng vai trò là nơi thử nghiệm.
“Sau khi trưởng thành và mở rộng sang các cấp đăng ký thấp hơn và phiên bản miễn phí, Nhà điều hành có tiềm năng mở ra kỷ nguyên của các đại lý hướng tới người tiêu dùng, dân chủ hóa hơn nữa AI và đưa nó vào cuộc sống hàng ngày.”
Được thiết kế ban đầu cho người dùng Pro với mức giá cao, Operator mang đến cho OpenAI cơ hội học hỏi từ những người dùng đầu tiên và cải tiến các khả năng của nó.
Antoniou lưu ý rằng mặc dù 200 USD/tháng có thể chưa chứng minh được giá trị của hệ thống đối với hầu hết người dùng, nhưng việc đầu tư vào việc làm cho Operator trở nên mạnh mẽ hơn và dễ tiếp cận hơn có thể mang lại lợi thế cạnh tranh đáng kể cho OpenAI về lâu dài.
“Nó có đáng giá 200 USD/tháng không? Có lẽ là chưa. Nhưng khi hệ thống phát triển, hào nước của OpenAI sẽ ngày càng lớn, khiến các đối thủ cạnh tranh khó bắt kịp hơn. Giờ đây, thách thức quay trở lại với Anthropic và Google – cả hai đều đã thể hiện khả năng tương tự trong các sản phẩm thích hợp hoặc tập trung vào kỹ thuật – để đáp ứng và tiếp tục tham gia cuộc chơi,” ông kết luận.
Khi OpenAI tiếp tục tinh chỉnh Operator, tiềm năng cách mạng hóa cách mọi người tương tác với công nghệ sẽ trở nên rõ ràng. Từ việc hợp tác với các công ty như Instacart, DoorDash và Uber cho đến các use case trong khu vực công, Operator đặt mục tiêu cân bằng sự đổi mới với sự tin cậy và an toàn.
Mặc dù những hạn chế ban đầu và giá cả có thể ngăn cản việc áp dụng rộng rãi ở thời điểm hiện tại, những rào cản này có thể chỉ là tạm thời khi OpenAI cam kết nâng cao khả năng sử dụng và khả năng truy cập theo thời gian.
Xem thêm: OpenAI lập luận chống lại việc xóa dữ liệu ChatGPT tại tòa án Ấn Độ

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra Triển lãm AI & Dữ liệu lớn diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị tự động hóa thông minh, BlockX, Tuần lễ Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.
Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp đây.